Skip to content

个人垃圾场

数据集

个人垃圾场

基础
基础
- 基础知识
- 机器学习基础
文字识别
文字识别
目标检测
目标检测
- YOLO-v5
- YOLOX
- YOLO-Faster-v2
- DETR
结构化抽取
结构化抽取
- 数据集数据集
  Table of contents
  - DocBank
  - EATEN
  - CDLA
- LayoutLM系列
- StrucTexT
表格识别
表格识别
- 表格识别
损失函数
损失函数
- AmSoftmax
- CenterLoss
数据增强
数据增强
- 图像数据增强
服务部署
服务部署
- TensorRT

数据集

DocBank ¶

基于弱监督数据方法构建，包含文本与版式信息，500K的数据量(400K训练，50k验证，50k测试)，数据类型是英文数据
包含如下标签：Abstract，Author，Caption，Equation，Figure，Footer，List，Paragraph，Reference，Section，Table，Title

EATEN ¶

合成数据，包含火车票（300k）、护照（100k）、名片（200k）

PubLayNet

通过匹配xml获得的1M图片，其中包含36K的文档图片
包含的类别有：text, title, list, table, figure
中英文

CDLA¶

中文版面分析数据

class	numbers of training labels	numbers of val labels
Equation	1726	201
Figure	4622	496
Figure caption	4570	445
Footer	3509	396
Header	10802	1774
Reference	2801	459
Table	1154	234
Table caption	1134	215
Text	22568	3099
Title	9331	1392