yichael/AIStoryBoard

comments: true hide:

navigation
toc ---

更新

2025.08.21: PaddleOCR 3.2.0 发布，新增能力如下：

重要模型新增：
- 新增 PP-OCRv5 英文、泰文、希腊文识别模型的训练、推理、部署。其中 PP-OCRv5 英文模型较 PP-OCRv5 主模型在英文场景提升 11%，泰文识别模型精度 82.68%，希腊文识别模型精度 89.28%。
部署能力升级：
- 全面支持飞桨框架 3.1.0 和 3.1.1 版本。
- 全面升级 PP-OCRv5 C++ 本地部署方案，支持 Linux、Windows，功能及精度效果与 Python 方案保持一致。
- 高性能推理支持 CUDA 12，可使用 Paddle Inference、ONNX Runtime 后端推理。
- 高稳定性服务化部署方案全面开源，支持用户根据需求对 Docker 镜像和 SDK 进行定制化修改。
- 高稳定性服务化部署方案支持通过手动构造HTTP请求的方式调用，该方式允许客户端代码使用任意编程语言编写。
Benchmark支持：
- 全部产线支持产线细粒度 benchmark，能够测量产线端到端推理时间以及逐层、逐模块的耗时数据，可用于辅助产线性能分析。
- 文档中补充各产线常用配置在主流硬件上的关键指标，包括推理耗时和内存占用等，为用户部署提供参考。
Bug修复：
- 修复模型训练时训练日志保存失败的问题。
- 对公式模型的数据增强部分进行了版本兼容性升级，以适应新版本的 albumentations 依赖，并修复了在多进程使用 tokenizers 依赖包时出现的死锁警告。
- 修复 PP-StructureV3 配置文件中的 use_chart_parsing 等开关行为与其他产线不统一的问题。
其他升级：
- 分离必要依赖与可选依赖。使用基础文字识别功能时，仅需安装少量核心依赖；若需文档解析、信息抽取等功能，用户可按需选择安装额外依赖。
- 支持 Windows 用户使用英伟达 50 系显卡，可根据安装文档安装对应版本的 paddle 框架。
- PP-OCR 系列模型支持返回单文字坐标。
- 模型新增 AIStudio、ModelScope 等下载源。可指定相关下载源下载对应的模型。
- 支持图表转表PP-Chart2Table单功能模块推理能力。
- 优化部分使用文档中的描述，提升易用性。

2025.08.15: PaddleOCR 3.1.1 发布，新增能力如下：

bug修复：
- 补充 PP-ChatOCRv4 类缺失的save_vector、save_visual_info_list、load_vector、load_visual_info_list 方法。
- 补充 PPDocTranslation 类的 translate 方法缺失的 glossary 和llm_request_interval 参数。
文档优化：
- 补充 MCP 文档中的 demo。
- 补充文档中测试性能指标使用的飞桨框架与 PaddleOCR 版本。
- 修复文档翻译产线文档中的错漏。
其他：
- 修改 MCP 服务器依赖，使用纯 Python 库 puremagic 代替 python-magic，减少安装问题。
- 使用 3.1.0 版本 PaddleOCR 重新测试 PP-OCRv5 性能指标，更新文档。

2025.06.29: PaddleOCR 3.1.0 发布，新增能力如下：

重要模型和产线：
- 新增 PP-OCRv5 多语种文本识别模型，支持法语、西班牙语、葡萄牙语、俄语、韩语等 37 种语言的文字识别模型的训推流程。平均精度涨幅超30%。详情
- 升级 PP-StructureV3 中的 PP-Chart2Table 模型，图表转表能力进一步升级，在内部自建测评集合上指标（RMS-F1）提升 9.36 个百分点（71.24% -> 80.60%）。
- 新增基于 PP-StructureV3 和 ERNIE 4.5 的文档翻译产线 PP-DocTranslation，支持翻译 Markdown 格式文档、各种复杂版式的 PDF 文档和文档图像，结果保存为 Markdown 格式文档。详情
新增MCP server：详情
- 支持 OCR 和 PP-StructureV3 两种工具；
- 支持本地Python库、星河社区云服务、自托管服务三种工作模式；
- 支持通过 stdio 调用本地服务，通过 Streamable HTTP 调用远程服务。
文档优化： 优化了部分使用文档描述，提升阅读体验。

2025.06.26: PaddleOCR 3.0.3 发布，包含：

Bug修复：修复enable_mkldnn参数不生效的问题，恢复CPU默认使用MKL-DNN推理的行为。

2025.06.19: PaddleOCR v3.0.2 版本发布，包含：

功能新增：
- 模型默认下载源从BOS改为HuggingFace，同时也支持用户通过更改环境变量PADDLE_PDX_MODEL_SOURCE为BOS，将模型下载源设置为百度云对象存储BOS。
- PP-OCRv5、PP-StructureV3、PP-ChatOCRv4等pipeline新增C++、Java、Go、C#、Node.js、PHP 6种语言的服务调用示例。
- 优化PP-StructureV3产线中版面分区排序算法，对复杂竖版版面排序逻辑进行完善，进一步提升了复杂版面排序效果。
- 优化模型选择逻辑，当指定语言、未指定模型版本时，自动选择支持该语言的最新版本的模型。 @timminator
- 为MKL-DNN缓存大小设置默认上界，防止缓存无限增长。同时，支持用户配置缓存容量。@timminator
- 更新高性能推理默认配置，支持Paddle MKL-DNN加速。优化高性能推理自动配置逻辑，支持更智能的配置选择。
- 调整默认设备获取逻辑，考虑环境中安装的Paddle框架对计算设备的实际支持情况，使程序行为更符合直觉。
- 新增PP-OCRv5的Android端示例，详情。
Bug修复：
- 修复PP-StructureV3部分CLI参数不生效的问题。
- 修复部分情况下export_paddlex_config_to_yaml无法正常工作的问题。
- 修复save_path实际行为与文档描述不符的问题。
- 修复基础服务化部署在使用MKL-DNN时可能出现的多线程错误。
- 修复Latex-OCR模型的图像预处理的通道顺序错误。
- 修复文本识别模块保存可视化图像的通道顺序错误。
- 修复PP-StructureV3中表格可视化结果通道顺序错误。
- 修复PP-StructureV3产线中极特殊的情况下，计算overlap_ratio时，变量溢出问题。
文档优化：
- 更新文档中对enable_mkldnn参数的说明，使其更准确地描述程序的实际行为。
- 修复文档中对lang和ocr_version参数描述的错误。
- 补充通过CLI导出产线配置文件的说明。
- 修复PP-OCRv5性能数据表格中的列缺失问题。
- 润色PP-StructureV3在不同配置下的benchmark指标。
其他：
- 放松numpy、pandas等依赖的版本限制，恢复对Python 3.12的支持。

2025.06.05: PaddleOCR v3.0.1 版本发布，包含：

优化部分模型和模型配置：
- 更新 PP-OCRv5默认模型配置，检测和识别均由mobile改为server模型。为了改善大多数的场景默认效果，配置中的参数limit_side_len由736改为64
- 新增文本行方向分类PP-LCNet_x1_0_textline_ori模型，精度99.42%，OCR、PP-StructureV3、PP-ChatOCRv4产线的默认文本行方向分类器改为该模型
- 优化文本行方向分类PP-LCNet_x0_25_textline_ori模型，精度提升3.3个百分点，当前精度98.85%
优化3.0.0版本部分存在的问题
- 优化CLI使用体验： 当使用PaddleOCR CLI不传入任何参数时，给出用法提示。
- 新增参数： PP-ChatOCRv3、PP-StructureV3支持use_textline_orientation参数。
- CPU推理速度优化： 所有产线CPU推理默认开启MKL-DNN。
- C++推理支持： PP-OCRv5的检测和识别串联部分支持C++推理
修复3.0.0版本部分存在的问题
- 修复由于公式识别、表格识别模型无法使用MKL-DNN导致PP-StructureV3在部分cpu推理报错的问题
- 修复在部分GPU环境中推理报FatalError: Process abort signal is detected by the operating system错误的问题
- 修复部分Python3.8环境的type hint的问题
- 修复PPStructureV3.concatenate_markdown_pages方法不存在的问题。
- 修复实例化paddleocr.PaddleOCR时同时指定lang和model_name时model_name不生效的问题。

2025.05.20: PaddleOCR 3.0 正式发布，包含：

发布全场景文字识别模型PP-OCRv5： 单模型支持五种文字类型和复杂手写体识别；整体识别精度相比上一代提升13个百分点。
发布通用文档解析方案PP-StructureV3： 支持多场景、多版式 PDF 高精度解析，在公开评测集中领先众多开源和闭源方案。
发布智能文档理解方案PP-ChatOCRv4： 原生支持文心大模型4.5，精度相比上一代提升15个百分点。
重构部署能力，统一推理接口： PaddleOCR 3.0 融合了飞桨 PaddleX3.0 工具的底层能力，全面升级推理、部署模块，优化 2.x 版本的设计，统一并优化了 Python API 和命令行接口（CLI）。部署能力现覆盖高性能推理、服务化部署及端侧部署三大场景。
适配飞桨框架 3.0，优化训练流程： 新版本已兼容飞桨 3.0 的 CINN 编译器等最新特性，静态图模型存储文件名由 xxx.pdmodel 改为 xxx.json。
统一模型名称： 对PaddleOCR3.0支持的模型命名体系进行了更新，采用更规范、统一的命名规则，为后续迭代与维护奠定基础。
2.x升级3.x其他说明。

2025.3.7 PaddleOCR 2.10 版本，主要包含如下内容

重磅新增 OCR 领域 12 个自研单模型：
- 版面区域检测 系列 3 个模型：PP-DocLayout-L、PP-DocLayout-M、PP-DocLayout-S，支持预测 23 个常见版面类别，中英论文、研报、试卷、书籍、杂志、合同、报纸等丰富类型的文档实现高质量版面检测，mAP@0.5 最高达 90.4%，轻量模型端到端每秒处理超百页文档图像。
- 公式识别 系列 2 个模型：PP-FormulaNet-L、PP-FormulaNet-S，支持 5 万种 LaTeX 常见词汇，支持识别高难度印刷公式和手写公式，其中 PP-FormulaNet-L 较开源同等量级模型精度高 6 个百分点，PP-FormulaNet-S 较同等精度模型速度快 16 倍。
- 表格结构识别 系列 2 个模型：SLANeXt_wired、SLANeXt_wireless。飞桨自研新一代表格结构识别模型，分别支持有线表格和无线表格的结构预测。相比于SLANet_plus，SLANeXt在表格结构方面有较大提升，在内部高难度表格识别评测集上精度高 6 个百分点。
- 表格分类 系列 1 个模型：PP-LCNet_x1_0_table_cls，超轻量级有线表格和无线表格的分类模型。
- 表格单元格检测 系列 2 个模型：RT-DETR-L_wired_table_cell_det、RT-DETR-L_wireless_table_cell_det，分别支持有线表格和无线表格的单元格检测，可配合SLANeXt_wired、SLANeXt_wireless、文本检测、文本识别模块完成对表格的端到端预测。（参见本次新增的表格识别v2产线）
- 文本识别 系列 1 个模型： PP-OCRv4_server_rec_doc，支持1.5万+字典，文字识别范围更广，与此同时提升了部分文字的识别精准度，在内部数据集上，精度较 PP-OCRv4_server_rec 高 3 个百分点以上。
- 文本行方向分类 系列 1 个模型：PP-LCNet_x0_25_textline_ori，存储只有 0.3M 的超轻量级文本行方向分类模型。
重磅推出 4 条高价值多模型组合方案：
- 文档图像预处理产线：通过超轻量级模型组合使用，实现对文档图像的扭曲和方向的矫正。
- 版面解析v2产线：组合多个自研的不同类型的 OCR 类模型，优化复杂版面阅读顺序，实现多种复杂 PDF 文件端到端转换 Markdown 文件和 JSON 文件。在多个文档场景下，转换效果较其他开源方案更好。可以为大模型训练和应用提供高质量的数据生产能力。
- 表格识别v2产线：提供更好的表格端到端识别能力。 通过将表格分类模块、表格单元格检测模块、表格结构识别模块、文本检测模块、文本识别模块等组合使用，实现对多种样式的表格预测，用户可自定义微调其中任意模块以提升垂类表格的效果。
- PP-ChatOCRv4-doc产线：在 PP-ChatOCRv3-doc 的基础上，融合了多模态大模型，优化了 Prompt 和多模型组合后处理逻辑，更好地解决了版面分析、生僻字、多页 pdf、表格、印章识别等常见的复杂文档信息抽取难点问题，准确率较 PP-ChatOCRv3-doc 高 15 个百分点。其中，大模型升级了本地部署的能力，提供了标准的 OpenAI 调用接口，支持对本地大模型如 DeepSeek-R1 部署的调用。

2024.10.1 添加OCR领域低代码全流程开发能力

飞桨低代码开发工具PaddleX，依托于PaddleOCR的先进技术，支持了OCR领域的低代码全流程开发能力：
- 🎨 模型丰富一键调用：将文本图像智能分析、通用OCR、通用版面解析、通用表格识别、公式识别、印章文本识别涉及的17个模型整合为6条模型产线，通过极简的Python API一键调用，快速体验模型效果。此外，同一套API，也支持图像分类、目标检测、图像分割、时序预测等共计200+模型，形成20+单功能模块，方便开发者进行模型组合使用。
- 🚀提高效率降低门槛：提供基于统一命令和图形界面两种方式，实现模型简洁高效的使用、组合与定制。支持高性能推理、服务化部署和端侧部署等多种部署方式。此外，对于各种主流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等，进行模型开发时，都可以无缝切换。
支持文档场景信息抽取v3PP-ChatOCRv3-doc、基于RT-DETR的高精度版面区域检测模型和PicoDet的高效率版面区域检测模型、高精度表格结构识别模型SLANet_Plus、文本图像矫正模型UVDoc、公式识别模型LatexOCR、基于PP-LCNet的文档图像方向分类模型

2024.7 添加 PaddleOCR 算法模型挑战赛冠军方案

赛题一：OCR 端到端识别任务冠军方案——场景文本识别算法-SVTRv2；
赛题二：通用表格识别任务冠军方案——表格识别算法-SLANet-LCNetV2。

2024.5.10 上线星河零代码产线(OCR 相关)

全面覆盖了以下四大 OCR 核心任务，提供极便捷的 Badcase 分析和实用的在线体验

通用 OCR (PP-OCRv4)。
通用表格识别 (SLANet)。
通用图像信息抽取 (PP-ChatOCRv2-common)。
文档场景信息抽取 (PP-ChatOCRv2-doc)。

同时采用了 全新的场景任务开发范式 ,将模型统一汇聚，实现训练部署的零代码开发，并支持在线服务化部署和导出离线服务化部署包。

2023.8.7 发布 PaddleOCR release/2.7

发布PP-OCRv4，提供 mobile 和 server 两种模型
- PP-OCRv4-mobile：速度可比情况下，中文场景效果相比于 PP-OCRv3 再提升 4.5%，英文场景提升 10%，80 语种多语言模型平均识别准确率提升 8%以上
- PP-OCRv4-server：发布了目前精度最高的 OCR 模型，中英文场景上检测模型精度提升 4.9%，识别模型精度提升 2% 可参考快速开始一行命令快速使用，同时也可在飞桨 AI 套件(PaddleX)中的通用 OCR 产业方案中低代码完成模型训练、推理、高性能部署全流程

🔨2022.11 新增实现4 种前沿算法：文本检测 DRRG, 文本识别 RFL, 文本超分Text Telescope，公式识别CAN

2022.10 优化JS 版 PP-OCRv3 模型：模型大小仅 4.3M，预测速度提升 8 倍，配套 web demo 开箱即用

💥 直播回放：PaddleOCR 研发团队详解 PP-StructureV2 优化策略。微信扫描下方二维码，关注公众号并填写问卷后进入官方交流群，获取直播回放链接与 20G 重磅 OCR 学习大礼包（内含 PDF 转 Word 应用程序、10 种垂类模型、《动手学 OCR》电子书等）

2022.8.24 发布 PaddleOCR release/2.6

发布PP-StructureV2，系统功能性能全面升级，适配中文场景，新增支持版面复原，支持一行命令完成 PDF 转 Word；
版面分析模型优化：模型存储减少 95%，速度提升 11 倍，平均 CPU 耗时仅需 41ms；
表格识别模型优化：设计 3 大优化策略，预测耗时不变情况下，模型精度提升 6%；
关键信息抽取模型优化：设计视觉无关模型结构，语义实体识别精度提升 2.8%，关系抽取精度提升 9.1%。

2022.8 发布 OCR 场景应用集合：包含数码管、液晶屏、车牌、高精度 SVTR 模型、手写体识别等9 个垂类模型，覆盖通用，制造、金融、交通行业的主要 OCR 垂类应用

2022.5.9 发布PaddleOCR v2.5。发布内容包括

PP-OCRv3，速度可比情况下，中文场景效果相比于PP-OCRv2再提升5%，英文场景提升11%，80语种多语言模型平均识别准确率提升5%以上；
半自动标注工具PPOCRLabelv2：新增表格文字图像、图像关键信息抽取任务和不规则文字图像的标注功能；
OCR产业落地工具集：打通22种训练部署软硬件环境与方式，覆盖企业90%的训练部署环境需求
交互式OCR开源电子书《动手学OCR》，覆盖OCR全栈技术的前沿理论与代码实践，并配套教学视频。

update.md 26 KB Постійне посилання Історія Запис

更新

2025.08.21: PaddleOCR 3.2.0 发布，新增能力如下：

2025.08.15: PaddleOCR 3.1.1 发布，新增能力如下：

2025.06.29: PaddleOCR 3.1.0 发布，新增能力如下：

2025.06.26: PaddleOCR 3.0.3 发布，包含：

2025.06.19: PaddleOCR v3.0.2 版本发布，包含：

2025.06.05: PaddleOCR v3.0.1 版本发布，包含：

2025.05.20: PaddleOCR 3.0 正式发布，包含：

2025.3.7 PaddleOCR 2.10 版本，主要包含如下内容

2024.10.1 添加OCR领域低代码全流程开发能力

2024.7 添加 PaddleOCR 算法模型挑战赛冠军方案

2024.5.10 上线星河零代码产线(OCR 相关)

2023.8.7 发布 PaddleOCR release/2.7

🔨2022.11 新增实现4 种前沿算法：文本检测 DRRG, 文本识别 RFL, 文本超分Text Telescope，公式识别CAN

2022.10 优化JS 版 PP-OCRv3 模型：模型大小仅 4.3M，预测速度提升 8 倍，配套 web demo 开箱即用

2022.8.24 发布 PaddleOCR release/2.6

2022.8 发布 OCR 场景应用集合：包含数码管、液晶屏、车牌、高精度 SVTR 模型、手写体识别等9 个垂类模型，覆盖通用，制造、金融、交通行业的主要 OCR 垂类应用

2022.5.9 发布PaddleOCR v2.5。发布内容包括

2022.5.7 添加对Weights & Biases训练日志记录工具的支持

2021.12.21 《OCR十讲》课程开讲，12月21日起每晚八点半线上授课！ 【免费】报名地址：https://aistudio.baidu.com/aistudio/course/introduce/25207

2021.12.21 发布PaddleOCR v2.4。OCR算法新增1种文本检测算法（PSENet），3种文本识别算法（NRTR、SEED、SAR）；文档结构化算法新增1种关键信息提取算法（SDMGR），3种DocVQA算法（LayoutLM、LayoutLMv2，LayoutXLM）

2021.9.7 发布PaddleOCR v2.3，发布PP-OCRv2，CPU推理速度相比于PP-OCR server提升220%；效果相比于PP-OCR mobile 提升7%

2021.8.3 发布PaddleOCR v2.2，新增文档结构分析PP-Structure工具包，支持版面分析与表格识别（含Excel导出）

2021.6.29 FAQ新增5个高频问题，总数248个，每周一都会更新，欢迎大家持续关注

2021.4.8 release 2.1版本，新增AAAI 2021论文端到端识别算法PGNet开源，多语言模型支持种类增加到80+

2020.12.15 更新数据合成工具Style-Text，可以批量合成大量与目标场景类似的图像，在多个场景验证，效果明显提升

2020.12.07 FAQ新增5个高频问题，总数124个，并且计划以后每周一都会更新，欢迎大家持续关注

2020.11.25 更新半自动标注工具PPOCRLabel，辅助开发者高效完成标注任务，输出格式与PP-OCR训练任务完美衔接

2020.9.22 更新PP-OCR技术文章，https://arxiv.org/abs/2009.09941

2020.9.19 更新超轻量压缩ppocr_mobile_slim系列模型，整体模型3.5M(详见PP-OCR Pipeline)，适合在移动端部署使用

2020.9.17 更新超轻量ppocr_mobile系列和通用ppocr_server系列中英文ocr模型，媲美商业效果

2020.9.17 更新英文识别模型和多语种识别模型，已支持德语、法语、日语、韩语，更多语种识别模型将持续更新

2020.8.26 更新OCR相关的84个常见问题及解答，具体参考FAQ

2020.8.24 支持通过whl包安装使用PaddleOCR，具体参考Paddleocr Package使用说明

2020.8.21 更新8月18日B站直播课回放和PPT，课节2，易学易用的OCR工具大礼包，获取地址

2020.8.16 开源文本检测算法SAST和文本识别算法SRN

2020.7.23 发布7月21日B站直播课回放和PPT，课节1，PaddleOCR开源大礼包全面解读，获取地址

2020.7.15 添加基于EasyEdge和Paddle-Lite的移动端DEMO，支持iOS和Android系统

2020.7.15 完善预测部署，添加基于C++预测引擎推理、服务化部署和端侧部署方案，以及超轻量级中文OCR模型预测耗时Benchmark

2020.7.15 整理OCR相关数据集、常用数据标注以及合成工具

2020.7.9 添加支持空格的识别模型，识别效果，预测及训练方式请参考快速开始和文本识别训练相关文档

2020.7.9 添加数据增强、学习率衰减策略,具体参考配置文件

2020.6.8 添加数据集，并保持持续更新

2020.6.5 支持 attetnion 模型导出 inference_model

2020.6.5 支持单独预测识别时，输出结果得分

2020.5.30 提供超轻量级中文OCR在线体验

2020.5.30 模型预测、训练支持Windows系统

2020.5.30 开源通用中文OCR模型

2020.5.14 发布PaddleOCR公开课

2020.5.14 发布PaddleOCR实战练习

2020.5.14 开源8.6M超轻量级中文OCR模型

update.md 26 KB

Постійне посилання Історія Запис

2021.12.21 《OCR十讲》课程开讲，12月21日起每晚八点半线上授课！【免费】报名地址：https://aistudio.baidu.com/aistudio/course/introduce/25207

2020.9.17 更新英文识别模型和多语种识别模型，已支持`德语、法语、日语、韩语`，更多语种识别模型将持续更新

2020.6.5 支持 `attetnion` 模型导出 `inference_model`