数据集
DocBank¶
-
基于弱监督数据方法构建,包含文本与版式信息,500K的数据量(400K训练,50k验证,50k测试),数据类型是英文数据
-
包含如下标签:Abstract,Author,Caption,Equation,Figure,Footer,List,Paragraph,Reference,Section,Table,Title
EATEN¶
- 合成数据,包含火车票(300k)、护照(100k)、名片(200k)
PubLayNet
- 通过匹配xml获得的1M图片,其中包含36K的 文档图片
- 包含的类别有:text, title, list, table, figure
- 中英文
CDLA¶
- 中文版面分析数据
class | numbers of training labels | numbers of val labels |
---|---|---|
Equation | 1726 | 201 |
Figure | 4622 | 496 |
Figure caption | 4570 | 445 |
Footer | 3509 | 396 |
Header | 10802 | 1774 |
Reference | 2801 | 459 |
Table | 1154 | 234 |
Table caption | 1134 | 215 |
Text | 22568 | 3099 |
Title | 9331 | 1392 |