comments: true
这里整理了常用表格识别数据集,持续更新中,欢迎各位小伙伴贡献数据集~
| 数据集名称 | 图片下载地址 | PPOCR标注下载地址 |
|---|---|---|
| PubTabNet | https://github.com/ibm-aur-nlp/PubTabNet | jsonl格式,可直接用pubtab_dataset.py加载 |
| 好未来表格识别竞赛数据集 | https://ai.100tal.com/dataset | jsonl格式,可直接用pubtab_dataset.py加载 |
| WTW中文场景表格数据集 | https://github.com/wangwen-whu/WTW-Dataset | 需要进行转换后才能用pubtab_dataset.py加载 |