|
|
4 месяцев назад | |
|---|---|---|
| .. | ||
| README_ar.md | 4 месяцев назад | |
| README_cn.md | 4 месяцев назад | |
| README_es.md | 4 месяцев назад | |
| README_fr.md | 4 месяцев назад | |
| README_ja.md | 4 месяцев назад | |
| README_ko.md | 4 месяцев назад | |
| README_ru.md | 4 месяцев назад | |
| README_tcn.md | 4 месяцев назад | |
[English](../README.md) | [简体中文](./README_cn.md) | [繁體中文](./README_tcn.md) | [日本語](./README_ja.md) | [한국어](./README_ko.md) | [Français](./README_fr.md) | [Русский](./README_ru.md) | [Español](./README_es.md) | العربية [](https://github.com/PaddlePaddle/PaddleOCR) [](https://pypi.org/project/PaddleOCR/)    [](https://aistudio.baidu.com/community/app/91660/webUI) [](https://aistudio.baidu.com/community/app/518494/webUI) [](https://aistudio.baidu.com/community/app/518493/webUI)
ملاحظة خاصة: يقدم PaddleOCR 3.x العديد من التغييرات الكبيرة في الواجهات. من المرجح أن الشيفرة القديمة المبنية على PaddleOCR 2.x غير متوافقة مع PaddleOCR 3.x. يرجى التأكد من أن الوثائق التي تقرأها تتوافق مع إصدار PaddleOCR الذي تستخدمه. تشرح هذه الوثيقة أسباب الترقية والتغييرات الرئيسية من PaddleOCR 2.x إلى 3.x.
<ul dir="rtl">
<li>
تمت إضافة ميزات التدريب والاستدلال والنشر لنماذج التعرف <bdi dir="ltr">PP-OCRv5</bdi> للغات الإنجليزية والتايلاندية واليونانية.
<br>
<bdi dir="ltr">النموذج الإنجليزي</bdi> حقق زيادة بنسبة 11% في الدقة مقارنة بالإصدار السابق من <bdi dir="ltr">PP-OCRv5</bdi> في سيناريوهات اللغة الإنجليزية.
<bdi dir="ltr">النموذج التايلاندي</bdi> حقق دقة بنسبة 82.68%،
و<bdi dir="ltr">النموذج اليوناني</bdi> حقق دقة بنسبة 89.28%.
</li>
</ul>
<ul dir="rtl">
<li>
<bdi dir="ltr">دعم كامل لإصداري PaddlePaddle 3.1.0 و 3.1.1.</bdi>
</li>
<li>
<bdi dir="ltr">إعادة هيكلة كاملة لحل النشر المحلي بلغة C++، متوافق مع Linux و Windows، ليحقق نفس الوظائف والدقة كما في إصدار Python.</bdi>
</li>
<li>
<bdi dir="ltr">دعم CUDA 12</bdi> للاستدلال عالي الأداء، مع خيار استخدام <bdi dir="ltr">Paddle Inference</bdi> أو <bdi dir="ltr">ONNX Runtime</bdi>.
</li>
<li>
<bdi dir="ltr">إتاحة الشيفرة المصدرية بالكامل</bdi> لحل النشر كخدمة عالية الاستقرار، مما يمكن المستخدمين من تخصيص صور Docker أو SDK حسب احتياجاتهم.
</li>
<li>
يدعم حل النشر كخدمة عالية الاستقرار أيضاً استدعاءات HTTP يدوياً، مما يسمح للعملاء بالنشر بأي لغة.
</li>
</ul>
<ul dir="rtl">
<li>
<bdi dir="ltr">توفير وظيفة مؤشرات أداء مفصلة</bdi> عبر سلسلة الإنتاج بالكامل، لقياس زمن الاستدلال من البداية للنهاية وأزمنة تنفيذ الطبقات والوحدات المختلفة، لتسهيل تحليل الأداء.
</li>
<li>
<bdi dir="ltr">توفر الوثائق القيم المرجعية (زمن الاستدلال، استهلاك الذاكرة، إلخ) على أهم منصات العتاد</bdi> لمساعدة المستخدمين في اتخاذ قرارات النشر.
</li>
</ul>
<ul dir="rtl">
<li>
تم حل مشكلة عدم حفظ السجلات أثناء تدريب النموذج.
</li>
<li>
<bdi dir="ltr">تكييف جزء زيادة البيانات لنموذج المعادلات مع إصدار albumentations الجديد</bdi> وحل تحذير التعليق المحتمل عند استخدام tokenizers في تعدد العمليات.
</li>
<li>
<bdi dir="ltr">تصحيح عدم تطابق بعض الإشارات مثل use_chart_parsing في ملف إعدادات PP-StructureV3 مقارنة بإصدارات أخرى.</bdi>
</li>
</ul>
<ul dir="rtl">
<li>
<bdi dir="ltr">فصل التبعيات الأساسية عن الاختيارية؛ وظائف التعرف الأساسية تتطلب فقط الحد الأدنى من التبعيات، بينما يمكن تثبيت ميزات إضافية مثل تحليل الوثائق أو استخراج المعلومات حسب الحاجة.</bdi>
</li>
<li>
<bdi dir="ltr">دعم وحدات معالجة الرسومات NVIDIA السلسلة 50 في بيئة Windows، يرجى مراجعة <a href="../docs/version3.x/installation.en.md">دليل التثبيت</a> لاختيار إصدار Paddle المناسب.</bdi>
</li>
<li>
<bdi dir="ltr">نماذج سلسلة PP-OCR تدعم الآن إرجاع إحداثيات كل حرف.</bdi>
</li>
<li>
تمت إضافة مصادر تحميل النماذج مثل AIStudio وModelScope، مع إمكانية الاختيار بينها.
</li>
<li>
دعم الاستدلال لوحدة تحويل الرسومات إلى جداول <bdi dir="ltr">PP-Chart2Table</bdi>.
</li>
<li>
<bdi dir="ltr">تحسين بعض الأوصاف في الوثائق لتعزيز سهولة الاستخدام.</bdi>
</li>
</ul>
<ul dir="rtl">
<li>
تمت إضافة الطرق الناقصة <bdi dir="ltr">save_vector</bdi>، <bdi dir="ltr">save_visual_info_list</bdi>، <bdi dir="ltr">load_vector</bdi>، و<bdi dir="ltr">load_visual_info_list</bdi> إلى فئة <bdi dir="ltr">PP-ChatOCRv4</bdi>.
</li>
<li>
تمت إضافة المعاملات الناقصة <bdi dir="ltr">glossary</bdi> و<bdi dir="ltr">llm_request_interval</bdi> إلى دالة <bdi dir="ltr">translate</bdi> في فئة <bdi dir="ltr">PPDocTranslation</bdi>.
</li>
</ul>
<ul dir="rtl">
<li>تمت إضافة عرض توضيحي إلى وثائق <bdi dir="ltr">MCP</bdi>.</li>
<li>تمت إضافة توضيحات حول إصدارات <bdi dir="ltr">PaddlePaddle</bdi> و<bdi dir="ltr">PaddleOCR</bdi> المستخدمة في اختبارات مؤشرات الأداء.</li>
<li>تم تصحيح الأخطاء والنواقص في وثائق خط إنتاج ترجمة المستندات.</li>
</ul>
<ul dir="rtl">
<li>
تعديل تبعيات خادم <bdi dir="ltr">MCP</bdi>: تم استخدام مكتبة <bdi dir="ltr">puremagic</bdi> (بايثون فقط) بدلاً من <bdi dir="ltr">python-magic</bdi> لتقليل مشاكل التثبيت.
</li>
<li>
إعادة اختبار مؤشرات أداء <bdi dir="ltr">PP-OCRv5</bdi> باستخدام إصدار <bdi dir="ltr">PaddleOCR 3.1.0</bdi> وتحديث الوثائق.
</li>
</ul>
<ul dir="rtl">
<li>
<strong>تمت إضافة نموذج التعرف على النصوص متعدد اللغات <bdi dir="ltr">PP-OCRv5</bdi></strong>، والذي يدعم تدريب واستدلال نماذج التعرف على النصوص في 37 لغة، بما في ذلك الفرنسية، الإسبانية، البرتغالية، الروسية، الكورية وغيرها. <strong>تحسنت الدقة المتوسطة بنسبة تزيد عن 30%.</strong>
<a href="https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/algorithm/PP-OCRv5/PP-OCRv5_multi_languages.html">التفاصيل</a>
</li>
<li>
تم ترقية نموذج <bdi dir="ltr">PP-Chart2Table</bdi> في <bdi dir="ltr">PP-StructureV3</bdi>، مما عزز أكثر من إمكانية تحويل المخططات إلى جداول. في مجموعات التقييم الداخلية، ارتفع المقياس (<bdi dir="ltr">RMS-F1</bdi>) بمقدار <strong>9.36 نقطة مئوية (71.24% → 80.60%)</strong>.
</li>
<li>
تم إطلاق خط أنابيب ترجمة المستندات الجديد <bdi dir="ltr">PP-DocTranslation</bdi>، المبني على <bdi dir="ltr">PP-StructureV3</bdi> و <bdi dir="ltr">ERNIE 4.5</bdi>، ويدعم ترجمة مستندات <bdi dir="ltr">Markdown</bdi>، ومستندات <bdi dir="ltr">PDF</bdi> ذات التنسيقات المعقدة وصور المستندات، مع حفظ النتائج كمستندات <bdi dir="ltr">Markdown</bdi>.
<a href="https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/pipeline_usage/PP-DocTranslation.html">التفاصيل</a>
</li>
</ul>
<ul dir="rtl">
<li>
<strong>يدعم خطوط أنابيب OCR و PP-StructureV3.</strong>
</li>
<li>
يدعم ثلاثة أوضاع عمل: مكتبة Python المحلية، خدمة السحابة المجتمعية AIStudio، وخدمة الاستضافة الذاتية.
</li>
<li>
يدعم استدعاء الخدمات المحلية عبر stdio والخدمات البعيدة عبر Streamable HTTP.
</li>
</ul>
<ul dir="rtl">
<li>تم تحسين الشروحات في بعض الأدلة للمستخدمين لتوفير تجربة قراءة أكثر سلاسة.</li>
</ul>
enable_mkldnn فعّالة، واستعادة السلوك الافتراضي باستخدام MKL-DNN للاستدلال بوحدة المعالجة المركزية.BOS إلى HuggingFace. يمكن للمستخدمين أيضًا تغيير متغير البيئة PADDLE_PDX_MODEL_SOURCE إلى BOS لإعادة تعيين مصدر تنزيل النموذج إلى Baidu Object Storage (BOS).export_paddlex_config_to_yaml بشكل صحيح في بعض الحالات.save_path ووصفه في الوثائق.overlap_ratio في ظروف خاصة للغاية في خط أنابيب PP-StructureV3.enable_mkldnn في الوثائق لتعكس بدقة السلوك الفعلي للبرنامج.lang و ocr_version.mobile إلى server. لتحسين الأداء الافتراضي في معظم السيناريوهات، تم تغيير المعلمة limit_side_len في التكوين من 736 إلى 64.PP-LCNet_x1_0_textline_ori بدقة 99.42%. تم تحديث مصنف اتجاه أسطر النص الافتراضي لخطوط أنابيب OCR و PP-StructureV3 و PP-ChatOCRv4 إلى هذا النموذج.PP-LCNet_x0_25_textline_ori، مما أدى إلى تحسين الدقة بمقدار 3.3 نقطة مئوية لتصل إلى الدقة الحالية البالغة 98.85%.قم بتثبيت PaddlePaddle بالرجوع إلى دليل التثبيت، وبعد ذلك، قم بتثبيت مجموعة أدوات PaddleOCR.
⭐ ضع نجمة لهذا المستودع لتكون على اطلاع دائم بأحدث التحديثات والإصدارات الجديدة المثيرة، بما في ذلك ميزات التعرف الضوئي على الحروف (OCR) وتحليل المستندات القوية! ⭐
| حساب PaddlePaddle الرسمي على WeChat | انضم إلى مجموعة النقاش التقني |
|---|---|
![]() |
![]() |
لم يكن PaddleOCR ليصل إلى ما هو عليه اليوم بدون مجتمعه المذهل! 💗 شكرًا جزيلاً لجميع شركائنا القدامى، والمتعاونين الجدد، وكل من صب شغفه في PaddleOCR - سواء ذكرنا اسمك أم لا. دعمكم يشعل نارنا!
| اسم المشروع | الوصف |
|---|---|
| RAGFlow |
محرك RAG يعتمد على فهم عميق للوثائق. |
| pathway |
إطار عمل ETL بلغة بايثون لمعالجة التدفق، التحليل الفوري، خطوط أنابيب LLM وRAG. |
| MinerU |
أداة تحويل المستندات متعددة الأنواع إلى Markdown |
| Umi-OCR |
برنامج OCR مجاني ومفتوح المصدر للعمل دفعة واحدة دون اتصال بالإنترنت. |
| cherry-studio |
عميل سطح مكتب يدعم عدة مزودي LLM. |
| OmniParser |
أداة OmniParser: أداة تحليل الشاشة لوكيل واجهة المستخدم الرسومية المستند إلى الرؤية البحتة. |
| QAnything |
نظام سؤال وجواب يعتمد على أي شيء. |
| PDF-Extract-Kit |
مجموعة أدوات قوية مفتوحة المصدر مصممة لاستخراج محتوى عالي الجودة بكفاءة من مستندات PDF المعقدة والمتنوعة. |
| Dango-Translator |
يتعرف على النص على الشاشة، ويترجمه ويعرض نتائج الترجمة في الوقت الفعلي. |
| تعرف على المزيد من المشاريع | مشاريع أخرى تعتمد على PaddleOCR |
هذا المشروع مرخص بموجب ترخيص Apache 2.0.
@misc{cui2025paddleocr30technicalreport,
title={PaddleOCR 3.0 Technical Report},
author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
year={2025},
eprint={2507.05595},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2507.05595},
}
@misc{cui2025paddleocrvlboostingmultilingualdocument,
title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model},
author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
year={2025},
eprint={2510.14528},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2510.14528},
}