English | [简体中文](README_ch.md)

## Введение PaddleOCR стремится создавать многоязычные, потрясающие, передовые и практичные инструменты OCR, которые помогают пользователям обучать лучшие модели и применять их на практике
## 📣 Последние обновления - **🔥2022.8.24 Выпуск PaddleOCR [Выпуск /2.6](https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.6)** - Выпускать [PP-Structurev2](./ppstructure/),с полностью обновленными функциями и производительностью, адаптированными для китайских сцен и новой поддержкой pаспознавание таблиц [Восстановление макета](./ppstructure/recovery) и **однострочная команда для преобразования PDF в Word**; - [Анализ макета](./ppstructure/layout) оптимизация: память модели уменьшена на 95%, а скорость увеличена в 11 раз, а среднее время процессорного времени составляет всего 41 мс; - [Распознавание таблиц](./ppstructure/table) оптимизация: разработано 3 стратегии оптимизации, а точность модели улучшена на 6% при сопоставимых затратах времени; - [Извлечение ключевой информации](./ppstructure/kie) оптимизация: разработана визуально независимая структура модели, точность распознавания семантической сущности увеличена на 2,8%, а точность извлечения отношения увеличена на 9,1%. - **🔥2022.7 Выпуск [Коллекция приложений сцены OCR](./applications/README_en.md)** - Выпуск **9 вертикальных моделей**, таких как цифровая трубка, ЖК-экран, номерной знак, модель распознавания рукописного ввода, высокоточная модель SVTR и т. д., охватывающих основные вертикальные приложения OCR в целом, производственной, финансовой и транспортной отраслях. - **🔥2022.5.9 Выпуск PaddleOCR [Выпуск /2.5](https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.5)** - Выпускать [PP-OCRv3](./doc/doc_en/ppocr_introduction_en.md#pp-ocrv3): При сопоставимой скорости эффект китайской сцены улучшен на 5% по сравнению с ПП-OCRRv2, эффект английской сцены улучшен на 11%, а средняя точность распознавания 80 языковых многоязычных моделей улучшена более чем на 5%. - Выпускать [PPOCRLabelv2](./PPOCRLabel): Добавьте функцию аннотации для задачи распознавания таблиц, задачи извлечения ключевой информации и изображения неправильного текста. - Выпустить интерактивную электронную книгу [*"Погружение в OCR"*](./doc/doc_en/ocr_book_en.md), охватывает передовую теорию и практику кодирования технологии полного стека OCR. - [подробнее](./doc/doc_en/update_en.md) ## 🌟 Функции PaddleOCR поддерживает множество передовых алгоритмов, связанных с распознаванием текста, и разработала промышленные модели/решения. [PP-OCR](./doc/doc_en/ppocr_introduction_en.md) и [PP-Structure](./ppstructure/README.md) на этой основе и пройти весь процесс производства данных, обучения модели, сжатия, логического вывода и развертывания.
## ⚡ Быстрый опыт ```bash pip3 install paddlepaddle # for gpu user please install paddlepaddle-gpu pip3 install paddleocr paddleocr --image_dir ./doc/imgs_en/254.jpg --lang=en # change for i18n abbr ``` > Если у вас нет среды Python, выполните [Подготовка среды](./doc/doc_en/environment_en.md). Мы рекомендуем вам начать с [Учебники](#Tutorials). ## 📚 Электронная книга: *Погружение в OCR* - [Погружение в распознавание символов](./doc/doc_en/ocr_book_en.md) ## 👫 Сообщество Что касается международных разработчиков, мы рассматриваем [Обсуждения PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR/discussions) как нашу платформу для международного сообщества. Все идеи и вOCRосы можно обсудить здесь на английском языке. ## 🛠️ Список моделей серии ПП -OCR | Введение модели | Название модели | Рекомендуемая сцена | Модель обнаружения | Классификатор направлений | Модель распознавания | | ------------------------------------------------------------ | ---------------------------- | ----------------- | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | | Ру́сский язы́к:Ру́сский язы́к Сверхлегкая модель ПП-OCRv3 (13.4M) | модель И18н | Мобильный и сервер | | | | | Английский сверхлегкая модель ПП-OCRv3 (13,4 Мб) | en\_ПП-OCRv3_xx |Мобильный и сервер | [модель вывода](https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_det_infer.tar) / [обученный модель](https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_det_distill_train.tar) | [вывод модель](https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar) / [обученный модель](https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_train.tar) | [вывод модель](https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_rec_infer.tar) / [обученный модель](https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_rec_train.tar) | | Сверхлегкая китайская и английская модель ПП-OCRv3 (16,2M) | ch\_ПП-OCRv3_xx | Мобильный и сервер | [вывод модель](https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tar) / [обученный модель](https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_distill_train.tar) | [вывод модель](https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar) / [обученный модель](https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_train.tar) | [вывод модель](https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_rec_infer.tar) / [обученный модель](https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_rec_train.tar) | - Для получения дополнительных загрузок моделей (включая несколько языков) см. [Загрузки моделей серии ПП-OCR](./doc/doc_en/models_list_en.md). - Для запроса нового языка см[Руководство для новых языковых_запросов] (#language_requests). - Модели структурного анализа документов см[PP-Structure модельs](./ppstructure/docs/модельs_list_en.md). ## 📖 Учебники - [Подготовка окружающей среды](./doc/doc_en/environment_en.md) - [PP-OCR 🔥](./doc/doc_en/ppocr_introduction_en.md) - [Быстрый старт](doc/doc_en/quickstart_en.md) - [Модель Zoo](./doc/doc_en/модельs_en.md) - [Модель тренировки](./doc/doc_en/training_en.md) - [Обнаружение текста](./doc/doc_en/detection_en.md) - [Распознавание текста](./doc/doc_en/recognition_en.md) - [Классификация направления текста](./doc/doc_en/angle_class_en.md) - Модель Сжатие - [Модель квантования](./deploy/slim/quantization/README_en.md) - [Модель Обрезка](./deploy/slim/prune/README_en.md) - [Дистилляция знаний](./doc/doc_en/knowledge_distillation_en.md) - [Вывод и развертывание](./deploy/README.md) - [Python Вывод](./doc/doc_en/ inference _ppocr_en.md) - [Вывод C++](./deploy/cpp_infer/readme.md) -[Подача](./deploy/pdserving/README.md) - [Мобильный](./deploy/lite/readme.md) - [Paddle2ONNX](./deploy/paddle2onnx/readme.md) -[ВеслоОблако](./deploy/paddlecloud/README.md) - [Benchmark](./doc/doc_en/benchmark_en.md) - [PP-Structure 🔥](./ppstructure/README.md) - [Быстрый старт](./ppstructure/docs/quickstart_en.md) - [Модель Zoo](./ppstructure/docs/модельs_list_en.md) - [Модель тренировки](./doc/doc_en/training_en.md) - [Анализ макета](./ppstructure/layout/README.md) - [Распознавание таблиц](./ppstructure/table/README.md) - [Извлечение ключевой информации](./ppstructure/kie/README.md) - [Вывод и развертывание](./deploy/README.md) - [Вывод Python](./ppstructure/docs/inference_en.md) - [Вывод С++](./deploy/cpp_infer/readme.md) - [Обслуживание](./deploy/hubserving/readme_en.md) - [Академические алгоритмы](./doc/doc_en/algorithm_overview_en.md) - [Обнаружение текста](./doc/doc_en/algorithm_overview_en.md) - [Распознавание текста](./doc/doc_en/algorithm_overview_en.md) - [Непрерывной цепью OCR](./doc/doc_en/algorithm_overview_en.md) - [Распознавание таблиц](./doc/doc_en/algorithm_overview_en.md) - [Извлечение ключевой информации](./doc/doc_en/algorithm_overview_en.md) - [Добавьте новые алгоритмы в PaddleOCR](./doc/doc_en/add_new_algorithm_en.md) - Аннотации и синтез данных - [Полуавтоматический инструмент аннотации данных: метка ППOCRR](./PPOCRLabel/README.md) - [Инструмент синтеза данных: Стиль-текст](./StyleText/README.md) - [Другие инструменты аннотирования данных](./doc/doc_en/data_annotation_en.md) - [Другие инструменты синтеза данных](./doc/doc_en/data_synthesis_en.md) - Наборы данных - [Общие наборы данных OCR (китайский/английский)](doc/doc_en/dataset/datasets_en.md) - [Наборы данных Рукописный/_OCR_ наборы данных (китайский)](doc/doc_en/dataset/handwritten_datasets_en.md) - [Различные наборы данных OCR (многоязычные)](doc/doc_en/dataset/vertical_and_multilingual_datasets_en.md) - [Анализ макета](doc/doc_en/dataset/layout_datasets_en.md) - [Распознавание таблиц](doc/doc_en/dataset/table_datasets_en.md) - [Извлечение ключевой информации](doc/doc_en/dataset/kie_datasets_en.md) - [Структура кода](./doc/doc_en/tree_en.md) - [Визуализация](#Visualization) - [Сообщество](#Community) - [Новые языковые запросы](#language_requests) - [ЧАСТО ЗАДАВАЕМЫЕ ВOCRОСЫ](./doc/doc_en/FAQ_en.md) - [Использованная литература](./doc/doc_en/reference_en.md) - [ЛИЦЕНЗИЯ](#LICENSE) ## 🇺🇳 Руководство по запросам на новый язык Если вы хотите **запросить новую языковую модель**, проголосуйте в [Голосуйте за обновление многоязычной модели](https://github.com/PaddlePaddle/PaddleOCR/discussions/7253). Мы будем регулярно обновлять модель по результату. **Пригласите друзей проголосовать вместе!** Если вам нужно **обучить новую языковую модель** на основе вашего сценария, учебное пособие в [Проекте обучения многоязычной модели](https://github.com/PaddlePaddle/PaddleOCR/discussions/7252) поможет вам подготовить набор данных и показать вам весь процесс шаг за шагом. Оригинальный [Многоязычный план разработки OCR](https://github.com/PaddlePaddle/PaddleOCR/issues/1048) по-прежнему показывает вам много полезных корпусов и словарей. ## 👀 Визуализация [больше](./doc/doc_en/visualization_en.md)
PP-OCRv3 Многоязычная модель
PP-OCRv3 Aнглийская модель
PP-OCRv3 Kитайская модель
PP-Structurev2 1. анализ макета + распознавание таблиц
2. SER (Семантическое распознавание объектов)
3. RE (Извлечение отношений)
## 📄 Лицензия Этот проект выпущен под Apache 2.0 license