Skip to content

数据集

DocBank

  • 基于弱监督数据方法构建,包含文本与版式信息,500K的数据量(400K训练,50k验证,50k测试),数据类型是英文数据

  • 包含如下标签:Abstract,Author,Caption,Equation,Figure,Footer,List,Paragraph,Reference,Section,Table,Title

EATEN

  • 合成数据,包含火车票(300k)、护照(100k)、名片(200k)

PubLayNet

  • 通过匹配xml获得的1M图片,其中包含36K的 文档图片
  • 包含的类别有:text, title, list, table, figure
  • 中英文

CDLA

  • 中文版面分析数据
class numbers of training labels numbers of val labels
Equation 1726 201
Figure 4622 496
Figure caption 4570 445
Footer 3509 396
Header 10802 1774
Reference 2801 459
Table 1154 234
Table caption 1134 215
Text 22568 3099
Title 9331 1392