comments: true
关键信息抽取数据集
这里整理了常见的关键信息抽取数据集,持续更新中,欢迎各位小伙伴贡献数据集~
1. FUNSD数据集
图中,橙色区域代表`header`,淡蓝色区域代表`question`, 绿色区域表`answer`,粉红色代区域表`other`。
- **下载地址**:
## 2. XFUND数据集
- **数据来源**:
- **数据简介**:XFUND是一个多语种表单理解数据集,它包含7种不同语种的表单数据,并且全部用人工进行了键-值对形式的标注。其中每个语种的数据都包含了199张表单数据,并分为149张训练集以及50张测试集。部分图像以及标注框可视化如下所示:
3. wildreceipt数据集
注: 这里对于类别为Ignore或者Others的文本,没有进行可视化。
- 下载地址:
- 原始数据下载地址:链接
- 数据格式转换后适配于PaddleOCR训练的数据下载地址:链接