comments: true
hide:
更新
2025.08.21: PaddleOCR 3.2.0 发布,新增能力如下:
重要模型新增:
- 新增 PP-OCRv5 英文、泰文、希腊文识别模型的训练、推理、部署。其中 PP-OCRv5 英文模型较 PP-OCRv5 主模型在英文场景提升 11%,泰文识别模型精度 82.68%,希腊文识别模型精度 89.28%。
部署能力升级:
- 全面支持飞桨框架 3.1.0 和 3.1.1 版本。
- 全面升级 PP-OCRv5 C++ 本地部署方案,支持 Linux、Windows,功能及精度效果与 Python 方案保持一致。
- 高性能推理支持 CUDA 12,可使用 Paddle Inference、ONNX Runtime 后端推理。
- 高稳定性服务化部署方案全面开源,支持用户根据需求对 Docker 镜像和 SDK 进行定制化修改。
- 高稳定性服务化部署方案支持通过手动构造HTTP请求的方式调用,该方式允许客户端代码使用任意编程语言编写。
Benchmark支持:
- 全部产线支持产线细粒度 benchmark,能够测量产线端到端推理时间以及逐层、逐模块的耗时数据,可用于辅助产线性能分析。
- 文档中补充各产线常用配置在主流硬件上的关键指标,包括推理耗时和内存占用等,为用户部署提供参考。
Bug修复:
- 修复模型训练时训练日志保存失败的问题。
- 对公式模型的数据增强部分进行了版本兼容性升级,以适应新版本的 albumentations 依赖,并修复了在多进程使用 tokenizers 依赖包时出现的死锁警告。
- 修复 PP-StructureV3 配置文件中的
use_chart_parsing 等开关行为与其他产线不统一的问题。
其他升级:
- 分离必要依赖与可选依赖。使用基础文字识别功能时,仅需安装少量核心依赖;若需文档解析、信息抽取等功能,用户可按需选择安装额外依赖。
- 支持 Windows 用户使用英伟达 50 系显卡,可根据 安装文档 安装对应版本的 paddle 框架。
- PP-OCR 系列模型支持返回单文字坐标。
- 模型新增 AIStudio、ModelScope 等下载源。可指定相关下载源下载对应的模型。
- 支持图表转表PP-Chart2Table单功能模块推理能力。
- 优化部分使用文档中的描述,提升易用性。
2025.08.15: PaddleOCR 3.1.1 发布,新增能力如下:
bug修复:
- 补充
PP-ChatOCRv4 类缺失的save_vector、save_visual_info_list、load_vector、load_visual_info_list 方法。
- 补充
PPDocTranslation 类的 translate 方法缺失的 glossary 和llm_request_interval 参数。
文档优化:
- 补充 MCP 文档中的 demo。
- 补充文档中测试性能指标使用的飞桨框架与 PaddleOCR 版本。
- 修复文档翻译产线文档中的错漏。
其他:
- 修改 MCP 服务器依赖,使用纯 Python 库
puremagic 代替 python-magic,减少安装问题。
- 使用 3.1.0 版本 PaddleOCR 重新测试 PP-OCRv5 性能指标,更新文档。
2025.06.29: PaddleOCR 3.1.0 发布,新增能力如下:
2025.06.26: PaddleOCR 3.0.3 发布,包含:
- Bug修复:修复
enable_mkldnn参数不生效的问题,恢复CPU默认使用MKL-DNN推理的行为。
2025.06.19: PaddleOCR v3.0.2 版本发布,包含:
功能新增:
- 模型默认下载源从
BOS改为HuggingFace,同时也支持用户通过更改环境变量PADDLE_PDX_MODEL_SOURCE为BOS,将模型下载源设置为百度云对象存储BOS。
- PP-OCRv5、PP-StructureV3、PP-ChatOCRv4等pipeline新增C++、Java、Go、C#、Node.js、PHP 6种语言的服务调用示例。
- 优化PP-StructureV3产线中版面分区排序算法,对复杂竖版版面排序逻辑进行完善,进一步提升了复杂版面排序效果。
- 优化模型选择逻辑,当指定语言、未指定模型版本时,自动选择支持该语言的最新版本的模型。 @timminator
- 为MKL-DNN缓存大小设置默认上界,防止缓存无限增长。同时,支持用户配置缓存容量。@timminator
- 更新高性能推理默认配置,支持Paddle MKL-DNN加速。优化高性能推理自动配置逻辑,支持更智能的配置选择。
- 调整默认设备获取逻辑,考虑环境中安装的Paddle框架对计算设备的实际支持情况,使程序行为更符合直觉。
- 新增PP-OCRv5的Android端示例,详情。
Bug修复:
- 修复PP-StructureV3部分CLI参数不生效的问题。
- 修复部分情况下
export_paddlex_config_to_yaml无法正常工作的问题。
- 修复save_path实际行为与文档描述不符的问题。
- 修复基础服务化部署在使用MKL-DNN时可能出现的多线程错误。
- 修复Latex-OCR模型的图像预处理的通道顺序错误。
- 修复文本识别模块保存可视化图像的通道顺序错误。
- 修复PP-StructureV3中表格可视化结果通道顺序错误。
- 修复PP-StructureV3产线中极特殊的情况下,计算overlap_ratio时,变量溢出问题。
文档优化:
- 更新文档中对
enable_mkldnn参数的说明,使其更准确地描述程序的实际行为。
- 修复文档中对
lang和ocr_version参数描述的错误。
- 补充通过CLI导出产线配置文件的说明。
- 修复PP-OCRv5性能数据表格中的列缺失问题。
- 润色PP-StructureV3在不同配置下的benchmark指标。
其他:
- 放松numpy、pandas等依赖的版本限制,恢复对Python 3.12的支持。
2025.06.05: PaddleOCR v3.0.1 版本发布,包含:
- 优化部分模型和模型配置:
- 更新 PP-OCRv5默认模型配置,检测和识别均由mobile改为server模型。为了改善大多数的场景默认效果,配置中的参数
limit_side_len由736改为64
- 新增文本行方向分类
PP-LCNet_x1_0_textline_ori模型,精度99.42%,OCR、PP-StructureV3、PP-ChatOCRv4产线的默认文本行方向分类器改为该模型
- 优化文本行方向分类
PP-LCNet_x0_25_textline_ori模型,精度提升3.3个百分点,当前精度98.85%
- 优化3.0.0版本部分存在的问题
- 优化CLI使用体验: 当使用PaddleOCR CLI不传入任何参数时,给出用法提示。
- 新增参数: PP-ChatOCRv3、PP-StructureV3支持
use_textline_orientation参数。
- CPU推理速度优化: 所有产线CPU推理默认开启MKL-DNN。
- C++推理支持: PP-OCRv5的检测和识别串联部分支持C++推理
- 修复3.0.0版本部分存在的问题
- 修复由于公式识别、表格识别模型无法使用MKL-DNN导致PP-StructureV3在部分cpu推理报错的问题
- 修复在部分GPU环境中推理报
FatalError: Process abort signal is detected by the operating system错误的问题
- 修复部分Python3.8环境的type hint的问题
- 修复
PPStructureV3.concatenate_markdown_pages方法不存在的问题。
- 修复实例化
paddleocr.PaddleOCR时同时指定lang和model_name时model_name不生效的问题。
2025.05.20: PaddleOCR 3.0 正式发布,包含:
发布全场景文字识别模型PP-OCRv5: 单模型支持五种文字类型和复杂手写体识别;整体识别精度相比上一代提升13个百分点。
发布通用文档解析方案PP-StructureV3: 支持多场景、多版式 PDF 高精度解析,在公开评测集中领先众多开源和闭源方案。
发布智能文档理解方案PP-ChatOCRv4: 原生支持文心大模型4.5,精度相比上一代提升15个百分点。
重构部署能力,统一推理接口: PaddleOCR 3.0 融合了飞桨 PaddleX3.0 工具的底层能力,全面升级推理、部署模块,优化 2.x 版本的设计,统一并优化了 Python API 和命令行接口(CLI)。部署能力现覆盖高性能推理、服务化部署及端侧部署三大场景。
适配飞桨框架 3.0,优化训练流程: 新版本已兼容飞桨 3.0 的 CINN 编译器等最新特性,静态图模型存储文件名由 xxx.pdmodel 改为 xxx.json。
统一模型名称: 对PaddleOCR3.0支持的模型命名体系进行了更新,采用更规范、统一的命名规则,为后续迭代与维护奠定基础。
2.x升级3.x其他说明。
2025.3.7 PaddleOCR 2.10 版本,主要包含如下内容
重磅新增 OCR 领域 12 个自研单模型:
- 版面区域检测 系列 3 个模型:PP-DocLayout-L、PP-DocLayout-M、PP-DocLayout-S,支持预测 23 个常见版面类别,中英论文、研报、试卷、书籍、杂志、合同、报纸等丰富类型的文档实现高质量版面检测,mAP@0.5 最高达 90.4%,轻量模型端到端每秒处理超百页文档图像。
- 公式识别 系列 2 个模型:PP-FormulaNet-L、PP-FormulaNet-S,支持 5 万种 LaTeX 常见词汇,支持识别高难度印刷公式和手写公式,其中 PP-FormulaNet-L 较开源同等量级模型精度高 6 个百分点,PP-FormulaNet-S 较同等精度模型速度快 16 倍。
- 表格结构识别 系列 2 个模型:SLANeXt_wired、SLANeXt_wireless。飞桨自研新一代表格结构识别模型,分别支持有线表格和无线表格的结构预测。相比于SLANet_plus,SLANeXt在表格结构方面有较大提升,在内部高难度表格识别评测集上精度高 6 个百分点。
- 表格分类 系列 1 个模型:PP-LCNet_x1_0_table_cls,超轻量级有线表格和无线表格的分类模型。
- 表格单元格检测 系列 2 个模型:RT-DETR-L_wired_table_cell_det、RT-DETR-L_wireless_table_cell_det,分别支持有线表格和无线表格的单元格检测,可配合SLANeXt_wired、SLANeXt_wireless、文本检测、文本识别模块完成对表格的端到端预测。(参见本次新增的表格识别v2产线)
- 文本识别 系列 1 个模型: PP-OCRv4_server_rec_doc,支持1.5万+字典,文字识别范围更广,与此同时提升了部分文字的识别精准度,在内部数据集上,精度较 PP-OCRv4_server_rec 高 3 个百分点以上。
- 文本行方向分类 系列 1 个模型:PP-LCNet_x0_25_textline_ori,存储只有 0.3M 的超轻量级文本行方向分类模型。
重磅推出 4 条高价值多模型组合方案:
- 文档图像预处理产线:通过超轻量级模型组合使用,实现对文档图像的扭曲和方向的矫正。
- 版面解析v2产线:组合多个自研的不同类型的 OCR 类模型,优化复杂版面阅读顺序,实现多种复杂 PDF 文件端到端转换 Markdown 文件和 JSON 文件。在多个文档场景下,转换效果较其他开源方案更好。可以为大模型训练和应用提供高质量的数据生产能力。
- 表格识别v2产线:提供更好的表格端到端识别能力。 通过将表格分类模块、表格单元格检测模块、表格结构识别模块、文本检测模块、文本识别模块等组合使用,实现对多种样式的表格预测,用户可自定义微调其中任意模块以提升垂类表格的效果。
- PP-ChatOCRv4-doc产线:在 PP-ChatOCRv3-doc 的基础上,融合了多模态大模型,优化了 Prompt 和多模型组合后处理逻辑,更好地解决了版面分析、生僻字、多页 pdf、表格、印章识别等常见的复杂文档信息抽取难点问题,准确率较 PP-ChatOCRv3-doc 高 15 个百分点。其中,大模型升级了本地部署的能力,提供了标准的 OpenAI 调用接口,支持对本地大模型如 DeepSeek-R1 部署的调用。
2024.10.1 添加OCR领域低代码全流程开发能力
2024.7 添加 PaddleOCR 算法模型挑战赛冠军方案
2024.5.10 上线星河零代码产线(OCR 相关)
全面覆盖了以下四大 OCR 核心任务,提供极便捷的 Badcase 分析和实用的在线体验
同时采用了 全新的场景任务开发范式 ,将模型统一汇聚,实现训练部署的零代码开发,并支持在线服务化部署和导出离线服务化部署包。
- 发布PP-OCRv4,提供 mobile 和 server 两种模型
- PP-OCRv4-mobile:速度可比情况下,中文场景效果相比于 PP-OCRv3 再提升 4.5%,英文场景提升 10%,80 语种多语言模型平均识别准确率提升 8%以上
- PP-OCRv4-server:发布了目前精度最高的 OCR 模型,中英文场景上检测模型精度提升 4.9%, 识别模型精度提升 2%
可参考快速开始 一行命令快速使用,同时也可在飞桨 AI 套件(PaddleX)中的通用 OCR 产业方案中低代码完成模型训练、推理、高性能部署全流程
2022.10 优化JS 版 PP-OCRv3 模型:模型大小仅 4.3M,预测速度提升 8 倍,配套 web demo 开箱即用
- 💥 直播回放:PaddleOCR 研发团队详解 PP-StructureV2 优化策略。微信扫描下方二维码,关注公众号并填写问卷后进入官方交流群,获取直播回放链接与 20G 重磅 OCR 学习大礼包(内含 PDF 转 Word 应用程序、10 种垂类模型、《动手学 OCR》电子书等)
2022.8.24 发布 PaddleOCR release/2.6
- 发布PP-StructureV2,系统功能性能全面升级,适配中文场景,新增支持版面复原,支持一行命令完成 PDF 转 Word;
- 版面分析模型优化:模型存储减少 95%,速度提升 11 倍,平均 CPU 耗时仅需 41ms;
- 表格识别模型优化:设计 3 大优化策略,预测耗时不变情况下,模型精度提升 6%;
- 关键信息抽取模型优化:设计视觉无关模型结构,语义实体识别精度提升 2.8%,关系抽取精度提升 9.1%。
2022.8 发布 OCR 场景应用集合:包含数码管、液晶屏、车牌、高精度 SVTR 模型、手写体识别等9 个垂类模型,覆盖通用,制造、金融、交通行业的主要 OCR 垂类应用
2022.5.9 发布PaddleOCR v2.5。发布内容包括
- PP-OCRv3,速度可比情况下,中文场景效果相比于PP-OCRv2再提升5%,英文场景提升11%,80语种多语言模型平均识别准确率提升5%以上;
- 半自动标注工具PPOCRLabelv2:新增表格文字图像、图像关键信息抽取任务和不规则文字图像的标注功能;
- OCR产业落地工具集:打通22种训练部署软硬件环境与方式,覆盖企业90%的训练部署环境需求
- 交互式OCR开源电子书《动手学OCR》,覆盖OCR全栈技术的前沿理论与代码实践,并配套教学视频。
2021.12.21 发布PaddleOCR v2.4。OCR算法新增1种文本检测算法(PSENet),3种文本识别算法(NRTR、SEED、SAR);文档结构化算法新增1种关键信息提取算法(SDMGR),3种DocVQA算法(LayoutLM、LayoutLMv2,LayoutXLM)
2021.9.7 发布PaddleOCR v2.3,发布PP-OCRv2,CPU推理速度相比于PP-OCR server提升220%;效果相比于PP-OCR mobile 提升7%
2021.8.3 发布PaddleOCR v2.2,新增文档结构分析PP-Structure工具包,支持版面分析与表格识别(含Excel导出)
2021.6.29 FAQ新增5个高频问题,总数248个,每周一都会更新,欢迎大家持续关注
2021.4.8 release 2.1版本,新增AAAI 2021论文端到端识别算法PGNet开源,多语言模型支持种类增加到80+
2020.12.15 更新数据合成工具Style-Text,可以批量合成大量与目标场景类似的图像,在多个场景验证,效果明显提升
2020.12.07 FAQ新增5个高频问题,总数124个,并且计划以后每周一都会更新,欢迎大家持续关注
2020.11.25 更新半自动标注工具PPOCRLabel,辅助开发者高效完成标注任务,输出格式与PP-OCR训练任务完美衔接
2020.9.19 更新超轻量压缩ppocr_mobile_slim系列模型,整体模型3.5M(详见PP-OCR Pipeline),适合在移动端部署使用
2020.9.17 更新超轻量ppocr_mobile系列和通用ppocr_server系列中英文ocr模型,媲美商业效果
2020.9.17 更新英文识别模型和多语种识别模型,已支持德语、法语、日语、韩语,更多语种识别模型将持续更新
2020.8.26 更新OCR相关的84个常见问题及解答,具体参考FAQ
2020.8.21 更新8月18日B站直播课回放和PPT,课节2,易学易用的OCR工具大礼包,获取地址
2020.8.16 开源文本检测算法SAST和文本识别算法SRN
2020.7.23 发布7月21日B站直播课回放和PPT,课节1,PaddleOCR开源大礼包全面解读,获取地址
2020.7.15 添加基于EasyEdge和Paddle-Lite的移动端DEMO,支持iOS和Android系统
2020.7.15 完善预测部署,添加基于C++预测引擎推理、服务化部署和端侧部署方案,以及超轻量级中文OCR模型预测耗时Benchmark
2020.7.15 整理OCR相关数据集、常用数据标注以及合成工具
2020.7.9 添加支持空格的识别模型,识别效果,预测及训练方式请参考快速开始和文本识别训练相关文档
2020.7.9 添加数据增强、学习率衰减策略,具体参考配置文件
2020.6.8 添加数据集,并保持持续更新
2020.6.5 支持 attetnion 模型导出 inference_model
2020.6.5 支持单独预测识别时,输出结果得分
2020.5.30 提供超轻量级中文OCR在线体验
2020.5.30 模型预测、训练支持Windows系统
2020.5.30 开源通用中文OCR模型
2020.5.14 开源8.6M超轻量级中文OCR模型