Распознавание текста с помощью OCR
Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом, является самой популярной и качественной OCR-библиотекой.
OCR использует искусственный интеллект для поиска и распознавания текста на изображениях.
Tesseract ищет шаблоны в пикселях, буквах, словах и предложениях, использует двухэтапный подход, называемый адаптивным распознаванием. Требуется один проход по данным для распознавания символов, затем второй проход, чтобы заполнить любые буквы, в которых он не был уверен, буквами, которые, скорее всего, соответствуют данному слову или контексту предложения.
На одном из проектов стояла задача распознать чеки с фотографий.
Инструментом для распознавания был использован Tesseract OCR. Плюсами данной библиотеки можно отметить обученные языковые модели (>192), разные виды распознавания (изображение как слово, блок текста, вертикальный текст), легкая настройка. Так как Tesseract OCR написан на языке C++, был использован сторонний wrapper c github.
Различиями между версиями являются разные обученные модели (версия 4 имеет большую точность, поэтому мы использовали её).
Нам потребуются файлы с данными для распознавания текста, для каждого языка свой файл. Скачать данные можно по ссылке.
Чем лучше качество исходного изображения (имеют значение размер, контрастность, освещение), тем лучше получается результат распознавания.
Также был найден способ обработки изображения для его дальнейшего распознавания путем использования библиотеки OpenCV. Так как OpenCV написан на языке C++, и не существует оптимального для нашего решения написанного wrapper’а, было решено написать собственный wrapper для этой библиотеки с необходимыми для нас функциями обработки изображения. Основной сложностью является подбор значений для фильтра для корректной обработки изображения. Также есть возможность нахождения контуров чеков/текста, но не изучено до конца. Результат получился лучше (на 5-10%).
Параметры:
language — язык текста с картинки, можно выбрать несколько путем их перечисления через «+»;
pageSegmentationMode — тип расположения текста на картинке;
charBlacklist — символы, которые будут игнорироваться ignoring characters.
Использование только Tesseract дало точность ~70% при идеальном изображении, при плохом освещении/качестве картинки точность была ~30%.
Vision + Tesseract OCR
Так как результат был неудовлетворителен, было решено использовать библиотеку от Apple — Vision. Мы использовали Vision для нахождения блоков текста, дальнейшего разделения изображения на отдельные блоки и их распознавания. Результат был лучше на ~5%, но и появлялись ошибки из-за повторяющихся блоков.
Недостатками этого решения были:
1) Скорость работы. Скорость работы уменьшилась >4 раза (возможно, существует вариант распоточивания)
2) Некоторые блоки текста распознавались более 1 раза
3) Текст распознается справа налево, из-за чего текст с правой части чека распознавался раньше, чем текст слева.
MLKit
Еще одним из методов определения текста является MLKit от Google, развернутый на Firebase. Данный метод показал наилучшие результаты (~90%), но главным недостатком этого метода является поддержка только латинских символов и сложная обработка разделенного текста в одной строке (наименование — слева, цена — справа).
В итоге можно сказать, что распознать текст на изображениях — задача выполнимая, но есть некоторые трудности. Основной проблемой является качество (размер, освещенность, контрастность) изображения, которую можно решить путем фильтрации изображения. При распознавании текста при помощи Vision или MLKit были проблемы с неверным порядком распознавания текста, обработкой разделенного текста.
Распознанный текст может быть в ручную откорректирован и пригоден к использованию; в большинстве случаев при распознавании текста с чеков итоговая сумма распознается хорошо и не нуждается в корректировках.
Live Text для распознавания текста на фото из iOS 15 установить уже сейчас
Одним из нововведений iOS 15, которую Apple представила на конференции разработчиков 7 июня, стала функция Live Text. Её предназначение состоит в том, чтобы считывать текст на фотографиях, снятых на камеру. Это может быть снимок доски, документа, чека, этикетки и много чего ещё. Всего-то и нужно, что нажать на кнопку распознавания, а затем выделить и скопировать полученный текст. Штука, безусловно, очень классная и удобная. Но совершенно необязательно ждать выхода iOS 15, чтобы ей воспользоваться.
Live Text — это функция распознавания текста на уже готовых фотографиях
Как вы, вероятно, понимаете, функция Live Text не является исключительной разработкой Apple. Потому что приложения и сервисы, способные распознавать текст на фотографиях и копировать его, существуют уже очень давно. Так что выбор явно будет большим, не сомневайтесь.
Как скопировать текст с фотографии
Большинство из таких приложений, как правило, — это либо самостоятельные решения, которые больше ничего не умеют, либо, наоборот, умеют слишком много, чем и пугают пользователей. Так что пользоваться ими оказывается не очень удобно. К счастью, «Google Фото» является приятным исключением из этого правила.
Да-да, в «Google Фото» тоже есть функция распознавания текста на фотографиях. Показываю, как это работает:
— Скачайте приложение «Google Фото» из App Store;
- Как правило, Google Фото сам распознаёт текст и сразу предлагает его скопировать
- — Запустите его и загрузите туда фото с текстом;
- — Нажмите «Скопировать текст с изображения»;
- Фрагменты текста на фото можно выделять вручную
- — Выделите нужный фрагмент и нажмите «Копировать».
Как правило, при открытии снимка в интерфейсе «Google Фото» алгоритмы приложения сразу же определяют, что на нём присутствует текст. Поэтому предложение скопировать его чаще всего появляется автоматически. Но, если этого не произошло, нажмите на кнопку «Google Объектив» (вторая справа).
Таким образом вы можете распознавать не только печатный текст на бумаге, но и на других носителях. Например, алгоритмы «Google Фото» отлично справляются с вывесками, указателями, баннерами и даже рукописным текстом. Правда, желательно, чтобы текст был написан печатными буквами, потому что с писанным у приложения довольно большие проблемы.
Распознавание текста на фотографиях
На упаковке с Биг тейсти распознавание происходит лучше
Зато «Google Фото» может не только распознавать текст, но и предлагает множество вариантов последующего взаимодействия с полученным результатом. Например, его можно перевести на другой язык, найти по нему информацию в Google, прослушать, а также перенести на компьютер при включенной функции синхронизации.
На самом деле алгоритмы распознавания Google работают достаточно хорошо, так что ошибок чаще всего не бывает. Однако точность распознавания зависит от качества пропечатки текста, освещения и угла, под которым сделан снимок. Посмотрите, сколько ошибок приложение допускает на примере упаковки от сыра и как точно всё распознаёт на коробке от «Биг тейсти».
Низкое качество распознавания в случае с этикеткой из-под сыра связано с помятостью. Из-за этого весь текст не находится в одной плоскости, а как бы поделён на фрагменты, которые к тому же довольно ощутимо смещены друг относительно друга. Алгоритмам приходится поднапрячься, чтобы распознать всё, и это провоцирует их на ошибки. В случае с «Биг тейсти» поле для распознавания явно получше.
Как бы там ни было, ключевое преимущество «Google Фото» заключается в том, что, во-первых, это приложение установлено практически у всех, а, во-вторых, его алгоритмы работают с русским языком. В отличие от алгоритмов Apple, которые пока способны качественно распознавать текст на фотографиях только на английском языке.
Секрет веб-службы Google для распознавания текста
Дата публикации Jan 13, 2019
фотоЭдвард МанаUnsplash
Оптическое распознавание символов (OCR) — это один из способов соединить мир реальности и виртуальное слово. Первая система OCR была представлена в конце 1920-х годов. Целью распознавания текста является распознавание текста с изображения. Однако очень сложно добиться очень высокой точности из-за множества факторов. В следующей статье я расскажу, как Google строит решение, которое является одним из API Google Cloud Vision для решения этой проблемы.
Говоря об оптическом распознавании символов,тессерактэто одна из известных библиотек с открытым исходным кодом, которую каждый может использовать для выполнения OCR. Тессеракт найден HP, а разработка спонсируется Google с 2006 года. Модель Tesseract 3.x является старой версией, а версия 4.x построена на основе глубокого изучения (LSTM). Если вы хотите понять разницу между 3.x и 4.x, вы можете посетитьобмендля более подробной информации.
Так как tesseract реализован на C ++, мы не можем вызывать его как другую библиотеку python. Действительно, мы можем ссылатьсяC-API в Pythonно это не совсем удобно для пользователя. Следовательно, обертка Python,pytesseract, введен, чтобы сделать нашу жизнь проще.
Перед внедрением архитектурного дизайна, некоторые определения должны быть введены.
- Скрипт против языка: скрипт отличается от языка. Скрипт относится к системе письма, в то время как язык относится к разговорной речи в большинстве случаев. На следующем рисунке «ученый данных» — это английский язык на латинском языке, а «shuju kexuejia» — это китайский язык на латинском языке.
Скрипт против языка
- Ограничительная рамка: В отличие от других систем распознавания, ограничительная рамка содержит одну строку обнаруженного текста вместо одного символа или одного слова.
- Рассмотрение модели: Помимо точности, стоимость, универсальность и ремонтопригодность также рассматриваются для построения модели.
Предоставляя изображение, он проходит 5 этапов, чтобы получить окончательный результат вAPI Google Vision,
Архитектура Google Cloud Vision API (Уокер и др., 2018)
Обнаружение текста
Первым шагом является использование модели на основе обычной нейронной сети (CNN) для обнаружения и локализации строк текста и создания набора ограничивающих рамок.
Идентификация направления
Классифицирует направление на ограничивающую рамку. При необходимости некоторые ограничивающие рамки будут отфильтрованы, так как они ошибочно распознаются как текст.
Скрипт идентификации
Определяет скрипт для ограничивающей рамки. Предполагается, что существует один сценарий 1 на ограничивающий прямоугольник, но допускается несколько сценариев на изображение.
Распознавание текста
Это основная часть OCR, которая распознает текст из изображения. Он включает в себя не только модель языка на основе символов, но также оптическую модель начального стиля и собственный алгоритм декодирования.
Начальная модель (Fujii et al., 2017)
Анализ компоновки
Определение порядка чтения и различения заголовков, заголовков и т. Д.
Как упоминалось ранее, tesseract спонсируется Google. Я думаю, что это одна из причин, почему авторы сравнивают результат с тессерактом. Частота ошибок символов (CER) принимается для сравнения моделей. Он определяется как расстояние редактирования, разделенное на базовую длину и масштабированное на 100. Чем ниже, тем лучше.
Тессеракт против API Google Cloud Vision (Уокер и др. 2018)
Держите один, почему шаг обработки изображения не включается в конвейер? В статье не упоминается о причине. Я считаю, что это из-за модели нейронной сети уже в состоянии захватить те, которые характеризуют.
Помимо производительности, скорость является еще одним фактором. По моему опыту, Тессеракт хорошо распознает, но довольно медленный.
Я ученый в области залива. Сосредоточение внимания на новейших достижениях в области наук о данных, искусственного интеллекта, особенно в области НЛП и платформ. Вы можете связаться со мной отСредний блог,LinkedInилиGithub,
Walker J., Fujii Y., Popat A. C .. 2018.Веб-служба OCR для документов,
Fujii Y., Driesen K., Baccash J., Hurst A., Popat A. C .. 2017.Идентификация сценария последовательности к метке для многоязычного распознавания текста,
Оригинальная статья
Переводчик азбуки Морзе онлайн
Азбука Морзе — код Морзе, «Морзянка» — способ кодирования букв алфавита, цифр, знаков препинания и других символов при помощи длинных и коротких сигналов, так называемых «тире» и «точек» (а также пауз, разделяющих буквы).
За единицу времени принимается длительность одной точки. Длительность тире равна трём точкам. Пауза между знаками в букве — одна точка, между буквами в слове — 3 точки, между словами — 7 точек.
На этой странице Вы можете бесплатно воспользоваться сервисом для конвертерования текста в Азбуку Морзе или наоборот.
Русский символ | Латинский символ | Код Морзе |
---|---|---|
А | A | •− |
Б | B | −••• |
В | W | •−− |
Г | G | −−• |
Д | D | −•• |
Е и Ё | E | • |
Ж | V | •••− |
З | Z | −−•• |
И | I | •• |
Й | J | •−−− |
К | K | −•− |
Л | L | •−•• |
М | M | −− |
Н | N | −• |
О | O | −−− |
П | P | •−−• |
Р | R | •−• |
С | S | ••• |
Т | T | − |
У | U | ••− |
Ф | F | ••−• |
Х | H | •••• |
Ц | C | −•−• |
Ч | Ö | −−−• |
Ш | CH | −−−− |
Щ | Q | −−•− |
Ъ | Ñ | −−•−− |
Ы | Y | −•−− |
Ь | X | −••− |
Э | É | ••−•• |
Ю | Ü | ••−− |
Я | Ä | •−•− |
Русский символ | Латинский символ | Код Морзе |
---|---|---|
1 | •−−−− | |
2 | ••−−− | |
3 | •••−− | |
4 | ••••− | |
5 | ••••• | |
6 | −•••• | |
7 | −−••• | |
8 | −−−•• | |
9 | −−−−• | |
0 | −−−−− | |
. | •••••• | |
, | . | •−•−•− |
! | , | −−••−− |
! | −•−•−− | |
? | ••−−•• | |
‘ | •−−−−• | |
« | •−••−• | |
; | −•−•−• | |
: | −−−••• | |
— | −••••− | |
+ | •−•−• | |
= | −•••− | |
_ (подчёркивание) | ••−−•− | |
/ | −••−• | |
( | −•−−• | |
( или ) | ) | −•−−•− |
& | •−••• | |
$ | •••−••− | |
@ | •−−•−• | |
Ошибка | Error | •••••••• |
Конец связи | End contact | ••−•− |
P.S. Следует отметить, что хотя русская азбука Морзе частично совпадает с латинской, но всё же есть некоторые отличия (сравнивал на русской и английской страницах Википедии — там же можно посмотреть таблицы кодов). Например:
- символ «точка» в русском варианте: · · · · · · , а в латинском: · – · – · –
- запятая в русском: · − · − · − , а в латинском: – – · · – –
- восклицательный знак в русском: − − · · − − , а в латинском: – · – · – –
- открывающая скобка в латинском: – · – – · , а закрывающая – · – – · – , а в русском обе скобки одинаковые: – · – – · –
- некоторые символы вроде & + _ $ есть только в латинском варианте
Поэтому при спорных моментах, например, конвертировать код − − · · − − в восклицательный знак (по-русской версии) или в запятую (по латинской), предпочтение отдаётся русской версии, поскольку раз Вы читаете это сообщение на русском, то предполагается, что для Вас важнее именно русский вариант.
В вашем браузере отключен Javascript.
Чтобы произвести расчеты, необходимо разрешить элементы ActiveX!Больше интересного в телеграм @calcsbox
Преобразование изображения в текст с помощью библиотеки C ++ OCR
Технология OCR (оптическое распознавание символов) позволяет читать и преобразовывать текст на изображениях или отсканированных документах в машиночитаемую форму. OCR имеет различные варианты использования, включая считывание кодов с ваучеров, создание редактируемого текста, самообслуживание, преобразование печатных документов в цифровые форматы и т. Д. На рынке доступны различные инструменты и библиотеки OCR, однако надежность результатов OCR является ключевым фактором.В этой статье я покажу вам, как создать собственное приложение OCR и преобразовать изображения в текст программно, используя C ++ .
Библиотека C ++ OCR для преобразования изображения в текст
Aspose предлагает мощную библиотеку C ++ OCR, которая использует глубокое обучение, чтобы предоставить вам более надежные и близкие к точным результаты OCR. Вы можете скачать файлы библиотеки, а также образец проекта с GitHub.
Преобразование страницы изображения в текст с помощью C ++
Давайте сначала рассмотрим сценарий, в котором изображение содержит многострочный текст.Это может быть тот случай, когда у вас есть отсканированная книга, где каждая страница книги содержит набор строк текста. Ниже приведены шаги для преобразования изображения в текст в этом случае.
- Задайте путь изображения в строковой переменной.
- Подготовьте буфер для хранения результатов распознавания текста.
- Выполните OCR с использованием функции aspose :: ocr :: page (const char * image_path, wchar_t * buffer, size_t buffer_size).
- Распечатайте результаты или сохраните их в файл.
В следующем примере кода показано, как выполнять распознавание текста и преобразовывать изображение в текст с помощью C ++.
Выполнение OCR для изображения с одной строкой с использованием C ++
В предыдущем примере мы преобразовали изображение, содержащее несколько строк текста. Однако может быть случай, когда изображение содержит только одну строку текста, например заголовок или слоган. Ниже приведены шаги для выполнения распознавания текста в таких случаях.
- Используйте строковую переменную, чтобы задать путь к изображению.
- Создайте буфер для хранения результатов распознавания текста.
- Выполните OCR с использованием функции aspose :: ocr :: line (const char * image_path, wchar_t * buffer, size_t buffer_size).
- Сохраните или распечатайте результаты распознавания текста.
В следующем примере кода показано, как выполнять распознавание текста для изображения с одной строкой текста с помощью C ++.
Преобразование определенной области изображения в текст в C ++
Вы также можете настроить API, чтобы ограничить область изображения, в которой вы хотите выполнить OCR. В этом случае вы можете создать прямоугольник на изображении, чтобы получить доступ к желаемой области. Ниже приведены шаги по извлечению текста из определенной области изображения.
- Задайте путь изображения в строковой переменной.
- Подготовьте буфер для хранения результатов распознавания текста.
- Выполните OCR с помощью функции aspose :: ocr :: page_rect (const char * image_path, wchar_t * buffer, size_t buffer_size, int x, int y, int w, int h).
- Распечатать результаты распознавания текста.
В следующем примере кода показано, как преобразовать определенную область изображения в текст с помощью C ++.
Заключение
В этой статье вы узнали, как использовать библиотеку OCR Aspose для преобразования изображений в текст на C ++ .Мы видели, как выполнять распознавание текста на изображении с одной или несколькими строками текста, а также читать текст из определенной области изображения. Вы можете узнать больше о Aspose.OCR для C ++ , используя документацию.
См. Также
Копирование текста с изображений и распечаток файлов с помощью OCR в OneNote
OneNote поддерживает оптическое распознавание символов (OCR), инструмент, который позволяет копировать текст с изображения или распечатки файла и вставлять его в свои заметки, чтобы вы может вносить изменения в слова.Это отличный способ делать такие вещи, как копирование информации с отсканированной визитки в OneNote. После извлечения текста вы можете вставить его в другое место в OneNote или в другую программу, например Outlook или Word.
Извлечь текст из одного изображения
Щелкните изображение правой кнопкой мыши и выберите Копировать текст с изображения .
Примечание: В зависимости от сложности, разборчивости и количества текста, отображаемого на вставленном вами рисунке, эта команда может быть недоступна сразу в меню, которое появляется при щелчке правой кнопкой мыши на изображении.Если OneNote все еще читает и преобразует текст на изображении, подождите несколько секунд и повторите попытку.
Щелкните место, куда вы хотите вставить скопированный текст, а затем нажмите Ctrl + V.
Извлечение текста из изображений распечатки многостраничного файла
Щелкните правой кнопкой мыши любое изображение и выполните одно из следующих действий:
Щелкните Копировать текст с этой страницы распечатки , чтобы скопировать текст только с текущего выбранного изображения (страницы).
Щелкните Копировать текст со всех страниц распечатки , чтобы скопировать текст со всех изображений (страниц).
Щелкните место, куда вы хотите вставить скопированный текст, а затем нажмите Ctrl + V.
Примечание. Эффективность оптического распознавания символов зависит от качества изображения, с которым вы работаете.После вставки текста с изображения или распечатки файла рекомендуется просмотреть его и убедиться, что текст распознан правильно.
Библиотека распознавания текста
C / C ++ / Objective-C — qaru
Спросил
Просмотрено
44k раз
Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow.
Закрыт 7 лет назад.
Кто-нибудь знает о каких-либо бесплатных / открытых библиотеках распознавания текста на C / C ++ / Objective-C? В основном то, что может сканировать изображение и читать весь простой текст.
Создан 08 ноя.
Энди Уайт и Энди Уайт
82.8k4747 золотых знаков
2
Библиотека OCR с открытым исходным кодом:
1. ABBYY Mobile OCR Engine — это мощный комплект для разработки программного обеспечения, который позволяет разработчикам мобильных и небольших приложений интегрировать технологии высокоточного оптического распознавания символов (OCR), которые преобразуют изображения и фотографии в удобный и доступный для поиска текст.Toolkit поддерживает самые популярные мобильные платформы и устройства — iOS (iPhone) и Android. http://www.abbyy.com/mobileocr/
2.Tesseract, вероятно, является наиболее точным механизмом распознавания текста с открытым исходным кодом. https://code.google.com/p/tesseract-ocr/
Создан 18 июн.
2
Вот интересная статья о том, как извлекать числа из картинки.
Автор собирает большое количество образцов для обучения своего алгоритма нейронных сетей, и я считаю, что он выполняет обработку изображений с помощью OpenCV.
ответ дан 9 ноя ’09 в 7:19
Стефан
71.1k2626 золотых знаков113113 серебряных знака140140 бронзовых знаков
по умолчанию
Stack Overflow лучше всего работает с включенным JavaScript
Ваша конфиденциальность
Нажимая «Принять все файлы cookie», вы соглашаетесь с тем, что Stack Exchange может хранить файлы cookie на вашем устройстве и раскрывать информацию в соответствии с нашей Политикой в отношении файлов cookie.
Принимать все файлы cookie
Настроить параметры
Извлечение текста с помощью оптического распознавания символов — In-Q-Tel
Обработка документов на основе машинного обучения (ML)
становится важным компонентом аналитики неструктурированных данных.В этом блоге мы углубляемся в современную обработку оптического распознавания символов (OCR), обсуждаем передовые технологии и решения для стартапов по преобразованию неструктурированных источников данных в документах, изображениях и видео в структурированные данные, готовые для аналитики и анализа.
На рисунке 1 ниже мы показываем высокоуровневую общую архитектуру задачи обработки естественного языка (NLP). В документальной аналитике НЛП существует два потока данных:
- Структурированные текстовые данные (например, уже оцифрованный текст, JSON, XML и т. Д.)), который идет непосредственно в NLP, или
- Неструктурированная текстовая информация, встроенная в документы (такие как PDF, изображения и видео), которая сначала проходит через модуль OCR для извлечения текста из этих неструктурированных документов.
Рис. 1. Конвейер высокоуровневой аналитики НЛП из структурированных и неструктурированных источников. (Кредит)
The OCR Pipeline
OCR используется для преобразования текста, встроенного в отсканированные документы, изображения или видео, в формат, который легко редактируется, доступен для поиска и готов для последующей задачи аналитики НЛП.Для извлечения текста в удобную структурированную форму требуется комбинация модулей компьютерного зрения (CV), модулей распознавания (ML) и текстовых модулей (рисунок 2). Двумя основными компонентами модулей CV являются этапы предварительной обработки и сегментации. Эти два компонента используются для подготовки ввода для механизма OCR, в то время как этап постобработки используется для преобразования необработанного текста в вывод структурированного текста.
Рис. 2. Высокоуровневый обобщенный конвейер OCR с модулями компьютерного зрения, основанным на машинном обучении или традиционным извлечением признаков и распознаванием символов / слов, а также модулями обработки текста.
Реальные отсканированные документы и текст, встроенный в изображения и видео, не всегда доступны для непосредственного применения OCR. Чаще всего входные данные необходимо пройти через несколько этапов предварительной обработки, прежде чем будет применено OCR. Документы могут быть в различной ориентации, деформации могут возникать из-за процесса сканирования, а шумы могут возникать из-за сканирующих камер и / или окружающей среды, в которой происходило сканирование.
Этап 1: предварительная обработка OCR
Входящие отсканированные документы или изображения обычно не идеального размера, формы и ориентации.Чтобы повысить общую точность распознавания системы OCR, необходимо применить несколько этапов предварительной обработки. Это наиболее важный этап после самого механизма распознавания текста. Среди наиболее часто используемых алгоритмов предварительной обработки — кадрирование, коррекция выравнивания, коррекция искажений, бинаризация и шумоподавление (фильтрация шума) входного документа или изображения.
Обрезка
Обрезка соответствующей области интереса (ROI), содержащей интересующий текст, является первым шагом в предварительной обработке для OCR.Автоматическая обрезка может быть достигнута путем обучения специальной модели обрезки или использования существующих механизмов OCR и некоторых эвристик и обработки изображений для обнаружения грубых границ всего обнаруженного текста на изображении. На рисунке 3 показан пример обрезки квитанции из фона.
Рисунок 3. Обнаружение поступления и обрезка . (Кредит)
Коррекция выравнивания
Большинство отсканированных документов и исходных текстовых изображений не выровнены должным образом, и это существенно влияет на точность результата распознавания текста.От простой проекции гистограммы (см. Рисунок 4) до коррекции выравнивания на основе модели может потребоваться в зависимости от сложности входного документа.
Рисунок 4. Коррекция перекоса с помощью проекции гистограммы.
Коррекция искажений
Несколько факторов могут вызвать искажение отсканированного изображения или документа, содержащего интересующий текст. Перед отправкой в механизм OCR могут потребоваться методы исправления геометрической формы, такие как коррекция трапециевидного искажения и коррекция искажения выпрямления линий (см. Рисунок 5).
Рис. 5. Примеры эффекта трапецеидального искажения / коррекции трапецеидального искажения и выпрямления линий.
Коррекция контрастности и резкости
Увеличение контраста между текстом на переднем плане и фоном может повысить точность распознавания текста. Точно так же регулировка резкости краев текста может помочь в сегментации текста перед OCR, а также во время OCR. Адаптивное усиление контрастности на основе выравнивания гистограммы обычно применяется в OCR.
Удаление шума и размытия
Уменьшение размытости и шума в изображении исходного документа также повышает точность распознавания текста механизмом OCR. Обработка изображений с помощью гауссовой, медианной и двусторонней фильтрации может применяться для удаления или уменьшения эффекта размытия по Гауссу, шумов соли и перца и общих шумов, соответственно. Общее шумоподавление и устранение размытости также может быть достигнуто с помощью моделей шумоподавления с глубоким автоматическим кодированием. На рисунке 6 показан эффект удаления шума ISO, возникающего из-за несовершенства датчика изображения.
Рис. 6. Влияние фильтрации шумов ISO на бинаризованное изображение, вводимое в механизм OCR.
Бинаризация
Последний шаг предварительной обработки — это бинаризация изображения с текстом переднего плана на постоянном цветном фоне. Бинаризация может быть достигнута путем превращения текста переднего плана в белый на черном фоне или наоборот. На рисунке 7 показано сравнение простого глобального определения порога с подходом адаптивного определения порога для преобразования исходного отсканированного изображения в двоичную форму.
Рис. 7. Сравнение простого глобального определения порога с адаптивным установлением порога для преобразования входного отсканированного изображения в двоичную форму.
Этап 2: сегментация OCR
Последний этап предварительной обработки — это сегментация отсканированного документа или изображения на управляемые блоки, которые возвращают сегментированные слова для механизма распознавания текста.
Обнаружение на уровне строк / слов / символов
Существует несколько методов обнаружения текста, от традиционной обработки изображений до обнаружения на основе модели.Традиционные методы обнаружения текста на основе обработки изображений включают в себя преобразование ширины штриха (SWT) и максимально стабильные экстремальные области (MSER), которые извлекают текстовые области на основе обнаружения краев и извлечения экстремальных областей соответственно. Методы, основанные на модели глубокого обучения, могут включать в себя сеть текстовых предложений Connectionist (CTPN) и эффективный и точный детектор текста сцены (EAST).
В зависимости от типа обнаружения текста они могут варьироваться от обнаружения на уровне символов до обнаружения на уровне строки.На рисунке 8 показаны 3 уровня обнаружения текста.
Рис. 8. Обнаружение / сегментация текста на уровне символов, слов и строк во входных изображениях.
Извлечение и распознавание функций OCR
Основным компонентом любого конвейера OCR является механизм OCR. После того, как весь документ предварительно обработан и сегментирован на управляемые фрагменты, обычно в форме сегментированных слов, этап распознавания либо применяется напрямую, либо может применяться дополнительный этап извлечения признаков.Решения на основе глубокого обучения сочетают в себе извлечение и распознавание признаков в одной модели. Поскольку входные данные представлены в виде изображений, сверточные сети обрабатывают их лучше всего. Из-за последовательного характера текста в качестве блока распознавания обычно применяется комбинация сверточных нейронных сетей (CNN) и двунаправленных рекуррентных нейронных сетей (RNN) на основе долгосрочной краткосрочной памяти (LSTM). Окончательный вывод двунаправленных слоев LSTM подается на слой временной классификации Connectionist (CTC) для преобразования последовательности в вектор признаков, готовый для классификации слов.
Извлечение текста из документов можно разделить на три типа в зависимости от типа обрабатываемого документа.
Неструктурированные документы
Неструктурированные источники текста включают свободный текст в отсканированных изображениях, таких как книги, и текст, встроенный в изображения и видео.
Структурированные документы
Структурированные документы — это документы, в которых встроенный текст структурирован, но представляют собой отсканированные копии или изображения. Примеры включают формальные структурированные формы, такие как форма IRS 1040.Эти документы обрабатываются особым образом путем выделения отдельных блоков текста из формы и сопоставления их с шаблоном документа.
Полуструктурированные документы
Полуструктурированные документы включают комбинацию как структурированного встроенного текста в формах, так и свободного плавающего текста. Примеры включают заказы на закупку, квитанции и т. Д.
OCR Big Tech Tools
Как и в случае с несколькими инструментами, следующие крупные технологические компании имеют решения OCR в составе своих облачных предложений.Эти решения на основе OCR предоставляют самые основные компоненты, необходимые для обработки документов с помощью OCR.
- Google Cloud Vision API: Включает извлечение текста из изображений и имеет две основные аннотации для распознавания символов: 1) обнаружение текста, которое обнаруживает и извлекает текст из изображения, и 2) обнаружение текста документа, которое извлекает текст из изображения и оптимизирован для плотного текста (рукописного или в изображениях) и документов (PDF / TIFF). У Google есть бизнес-модель freemium для Vision API, включающая ценообразование, основанное на использовании функций, свыше 1000 единиц в месяц.
- Amazon Textract: сервис ML от AWS для автоматического извлечения данных текста, рукописного ввода и изображений из документов, форм и таблиц с помощью OCR в соответствии с SOC, ISO, PCI, HIPAA и GDPR. Textract уникален тем, что предоставляет конечные точки поддержки Amazon Private Cloud через AWS Privatelink, что позволяет клиентам избегать использования общедоступного облака для повышения безопасности. Кроме того, клиенты также могут запрашивать отзывы людей для управления конфиденциальными рабочими процессами. Textract нацелен на обнаружение / анализ документов и предлагает модель ценообразования, основанную на использовании, с оптовыми скидками на 1 млн + страниц в месяц.
- Microsoft Computer Vision API: Полнофункциональный пакет, предназначенный для автоматизации извлечения текста из изображений, документов и видео в реальном времени с использованием визуальной обработки данных для автоматической маркировки данных, создания описания изображения, извлечения текста и модерации контента. Бизнес-модель Freemium с бесплатными первыми 5000 транзакциями и многоуровневой моделью ценообразования на основе использования для 1 млн, 10 млн, 100 млн и более 100 млн транзакций в месяц.
Платформы сквозной обработки документов
Большинство стартапов в этой сфере создают платформы для сквозного приема, обработки, аналитики и визуализации документов.Ниже приведены одни из лучших стартапов по обработке документов на основе OCR.
- Impira: создает платформу искусственного интеллекта для автоматизации рабочих процессов с неструктурированными данными из документов, текста, голосового и видеоконтента с использованием комбинации алгоритмов оптического распознавания текста и статистического моделирования, которые могут извлекать смысл из этих крупномасштабных наборов данных. для решения «системы записи». Платформа предназначена для обработки полуструктурированных форм и документов.
- Automation Hero: разрабатывает платформу автоматизации роботизированных процессов (RPA) без кода с OCR для моделей машинного обучения на основе глубокого обучения для каждого этапа конвейера OCR.Кроме того, платформа предоставляет Excel как функциональные инструменты автоматизации процессов для визуального построения определенных конвейеров и может обрабатывать любой документ, включая рукописные документы.
- HyperScience: создает платформу для приема, классификации, извлечения и обработки документов с полным набором документов. Решение компании способно принимать различные типы документов (PDF-файлы, формы, рукописные заметки) непосредственно из источника (папка, электронная почта, очередь сообщений) и использовать модели OCR ML (локально / в облаке) для классификации и извлечения информации, совместно используемой с помощью нижестоящий API.
- Veryfi: разрабатывает полный набор решений для обработки полуструктурированных форм и документов, таких как квитанции и счета, а также полный набор инструментов автоматизации для бухгалтерских решений, таких как отчеты о расходах. Он предоставляет мобильные приложения и приложения для захвата документов по электронной почте.
Инструменты с открытым исходным кодом
- OpenCV: — это библиотека обработки изображений с открытым исходным кодом, написанная на C ++ / C с привязками, предлагаемыми для Python и Java. Он предоставляет полный список функций обработки изображений и машинного обучения.OpenCV был разработан с учетом производительности, особенно для приложений технического зрения в реальном времени, таких как зрение в робототехнике. OpenCV имеет несколько функций предварительной обработки и распознавания OCR, таких как MSER, фильтры шума и размытия, а также механизмы OCR.
- Leptonica: — это универсальная библиотека обработки / анализа изображений, которая обеспечивает некоторые функции предварительной обработки конвейера OCR, такие как сегментация текста и бинаризация. Он используется Tesseract от Google (подробности см. Ниже) для этих двух этапов предварительной обработки.
- ImageMagick: — это библиотека, которая предоставляет несколько функций обработки изображений с множеством параметров командной строки для настройки. Он предоставляет такие функции, как масштабирование изображения, обрезка, поворот и аффинные преобразования.
- Unpaper: разработан с целью повышения качества отсканированных бумажных документов. Первоначально созданный для того, чтобы страницы отсканированных книг были более удобочитаемыми на экране, тот же набор инструментов может улучшить отсканированные страницы перед отправкой данных в механизм OCR.Он может предоставлять несколько функций улучшения документа, таких как фильтры шума, черные фильтры, фильтры размытия и автоматическое исправление перекоса.
- Google Tesseract: — это комплексный механизм распознавания текста, который обеспечивает базовые возможности предварительной обработки, такие как бинаризация и сегментация с использованием Leptonica. Он поддерживает более 100 языков с возможностью переподготовки для дальнейшей языковой поддержки. Google использует Tesseract для обнаружения текста в видео и спама в Gmail.
- GIMP: — это программа для обработки изображений GNU.Он предназначен для использования в качестве автономного приложения для редактирования и обработки отдельных изображений, а также в качестве платформы для обработки изображений по сценариям с помощью C / C ++, Perl, Python и т. Д. Его функции могут быть расширены с помощью плагинов.
Обзор рынка
Ручная обработка документов медленная, утомительная, часто приводит к нескольким ошибкам и требует от сотрудников выполнения повторяющихся, монотонных задач, которые не приносят особой пользы, но снижают эффективность и удовлетворенность работой. Решения OCR на основе ИИ, которые обеспечивают полную поддержку приема, обработки, анализа и визуализации данных, станут де-факто методом при одновременном сокращении операционных накладных расходов бизнеса.McKinsey & Co. сообщает, что решения для автоматизации рабочего места на основе OCR могут улучшить операционную деятельность более чем на 30%. OCR имеет потенциал для обновления повседневных операций, и компания по исследованию рынка KBV оценивает возможность рынка OCR достичь 12,6 млрд долларов к 2025 году при среднегодовом темпе роста 12,5% в период с 2019 по 2025 год.
Потребности в автоматизации рабочих процессов возросли из-за попутного ветра от COVID-19, и финансирование венчурных инвестиций для компаний в этой сфере находится на рекордно высоком уровне. Более 250 миллионов долларов финансирования по 24 сделкам в 2020 году и более 135 миллионов долларов финансирования было инвестировано в 10 сделок только в 2021 году по сравнению со средним объемом финансирования около 130 миллионов долларов в год по 15 сделкам с 2014 года.
Открытые бизнес-модели, основанные на использовании, заменят унаследованные лицензионные контракты с технологическими гигантами (Google, Amazon и Microsoft), которые конкурируют за долю среди компаний F500, используя свои возможности облачных вычислений. Тем не менее, большая часть инноваций в рамках клиентской базы малого и среднего бизнеса и нишевых корпоративных ИТ-клиентов, вероятно, будет захвачена стартапами по сквозной обработке документов, которые обеспечат большую настройку и гибкость с точки зрения технических усовершенствований.
Заключение
Хотя инструменты с открытым исходным кодом могут помочь построить индивидуальный конвейер OCR и полезны для предварительной обработки документов, специализированные стартовые платформы могут предоставить сквозные инструменты для жизненного цикла неструктурированного документа до обработки структурированного текста.В дополнение к специфическим возможностям OCR, они предоставляют инструменты управления пользователями и проектами, надежные информационные панели для отслеживания и визуализации статистики, а также инструменты маркировки для полуструктурированных документов среди других функций. Крупные технологические компании также могут предоставлять модульные решения для каждого компонента конвейера OCR. У предприятий, которым требуется OCR, есть множество вариантов, будь то комплексная сквозная система или модульные решения.
Извлечь текст из изображения с помощью Python и OpenCV
Python автоматически найдет и извлечет текст из изображения.Да, Python может творить удивительные вещи. Приступим к работе над этим интересным проектом Python.
Картинка стоит тысячи слов
Вы наверняка слышали цитату много раз правильно! Что ж, поговорка очень верна, потому что иногда картина говорит сама за себя.
До сих пор мы обсуждали важность одного изображения, а теперь пришло время узнать о нем что-то более интересное. В этом проекте python мы узнаем, как извлекать текстовый контент из изображений с помощью openCV и tesseract.Теперь давайте посмотрим, как мы можем это создать.
Что такое Тессеракт?
Это движок с открытым исходным кодом для оптического распознавания символов (OCR). Он эффективно считывает текст с изображений и очень прост в использовании. Как упоминалось ранее, это открытый исходный код, поэтому его можно использовать бесплатно.
Предварительные требования
Для реализации этого проекта у вас должны быть базовые знания:
- Python
- Tessaract
- OpenCV.
- Tkinter
Загрузить код проекта
Прежде чем продолжить, загрузите исходный код проекта извлечения текста: Извлечение текста из изображения с помощью Python .
Шаги для начала извлечения текста
Давайте начнем разработку проекта обнаружения и извлечения текста
Установите необходимые библиотеки
Для установки библиотек используйте установщик pip из командной строки / терминала:
Pip install opencv-python Пип установить pytesseract pip install tkinter
Создайте main.py
Создайте файл main.py и добавьте следующий код
Код:
из tkinter import * from tkinter import filedialog из PIL импортировать ImageTk, Image импорт cv2 импорт pytesseract pytesseract.pytesseract.tesseract_cmd = 'C: \\ Program Files (x86) \\ Tesseract-OCR \\ tesseract.exe' корень = Tk () root.title ('Текст TechVidvan из проекта изображения') новая строка = Метка (корень) uploaded_img = Метка (корень) scrollbar = полоса прокрутки (корень) scrollbar.pack (side = RIGHT, fill = Y) def extract (путь): Actual_image = cv2.imread (путь) Sample_img = cv2.resize (Actual_image, (400,350)) Image_ht, Image_wd, Image_thickness = Sample_img.shape Sample_img = cv2.cvtColor (Sample_img, cv2.COLOR_BGR2RGB) тексты = pytesseract.image_to_data (Sample_img) mytext = "" prevy = 0 для cnt текст в перечислении (text.splitlines ()): если cnt == 0: Продолжить текст = текст.split () если len (текст) == 12: x, y, w, h = int (текст [6]), int (текст [7]), int (текст [8]), int (текст [9]) если (len (mytext) == 0): добыча = у if (prevy-y> = 10 или y-prevy> = 10): печать (mytext) Label (root, text = mytext, font = ('Times', 15, 'bold')). Pack () mytext = "" mytext = mytext + текст [11] + "" prevy = y Ярлык (root, text = mytext, font = ('Times', 15, 'bold')).пакет() def show_extract_button (путь): extractBtn = Button (root, text = "Извлечь текст", command = lambda: extract (path), bg = "# 2f2f77", fg = "gray", pady = 15, padx = 15, font = ('Times', 15, жирный)) extractBtn.pack () def upload (): пытаться: путь = filedialog.askopenfilename () image = Image.open (путь) img = ImageTk.PhotoImage (изображение) uploaded_img.configure (изображение = img) uploaded_img.image = img show_extract_button (путь) Кроме: проходить uploadbtn = Button (root, text = "Загрузить изображение", command = upload, bg = "# 2f2f77", fg = "gray", height = 2, width = 20, font = ('Times', 15, 'bold ')).пакет() newline.configure (текст = '\ n') newline.pack () uploaded_img.pack () root.mainloop ()
Пояснение:
- Импортируйте все необходимые библиотеки (opencv, tkinter, tesseract)
- Укажите расположение файла tesseract.exe.
- Tkinter предоставляет функциональные возможности графического интерфейса пользователя: откройте диалоговое окно изображения, чтобы пользователь мог загрузить изображение.
- Давайте перейдем к функции извлечения, которая принимает путь к изображению в качестве параметра.
- В этой функции мы прочитаем изображение, используя cv2. .я прочитал. Мы также изменим размер изображения, чтобы мы могли получить хорошо отформатированный вывод для всех различных размеров входных изображений.
- Tesseract работает с изображениями RGB, а opencv считывает изображение как изображение BGR, поэтому нам нужно преобразовать изображение, а затем вызвать функции tesseract для изображения. Здесь преобразование выполняется с помощью cv2.cvtCOLOR ().
- мы сохранили высоту, ширину и толщину входного изображения, используя img.shape для дальнейшего использования.
- После предварительной обработки вызовите функцию image_to_data () для tesseract, которая возвращает строку (извлеченного текста из image0.
- Для лучшего понимания выведите всю строку целиком.
- Строка представляет собой многострочную строку, в которой каждая строка содержит извлеченный текст, но ее первая строка (начиная с нуля) содержит заголовки, которые нам не нужны, поэтому мы пропустим самую первую строку.
- Теперь разделите строку, чтобы получить извлеченный текст, и, наконец, распечатайте извлеченный текст на экране.
Выходные данные проекта
Резюме
В этой статье мы успешно разработали проект, который очень эффективно автоматически обнаруживает и извлекает текст из изображений, используя встроенные функции pytesseract и opencv.
Обнаружение текста C ++ Demo — документация OpenVINO ™
Демонстрация демонстрирует пример использования нейронных сетей для обнаружения и распознавания печатного текста, повернутого под любым углом, в различных средах. В демоверсии вы можете использовать следующие предварительно обученные модели:
text-detection-0003
, которая представляет собой сеть обнаружения для поиска текста.text-detection-0004
, которая представляет собой легкую сеть обнаружения для поиска текста.horizontal-text-detection-0001
, которая представляет собой сеть обнаружения, которая работает намного быстрее, чем модели, описанные выше, но применима только для поиска более или менее горизонтального текста.распознавание текста-0012
, который представляет собой сеть распознавания для распознавания текста.распознавание текста-0014
, который представляет собой сеть распознавания для распознавания текста. Вы должны добавить опцию-tr_pt_first
и указать имя выходного слоя через опцию-tr_o_blb_nm
для этой модели (подробности см. В описании модели).распознавание текста-0015
, который представляет собой сеть распознавания для распознавания текста. Вы должны добавить параметры-tr_pt_first
,-m_tr_ss "? 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
(набор поддерживаемых символов) укажите (набор поддерживаемых символов),-b8_tr_d9_blits укажите тип вывода
-tr_nd9_blits (укажите тип поддерживаемых символов). Вы также можете указать опцию
-lower
для преобразования прогнозируемого текста в нижний регистр. См. Подробности в описании модели.распознавание текста resnet-fc
, который представляет собой сеть распознавания для распознавания текста. Вам следует добавить опцию-tr_pt_first
.распознавание рукописных оценок-0001
, которая представляет собой сеть распознавания для распознавания рукописных оценок, таких как.
Как это работает
При запуске приложение считывает параметры командной строки и загружает одну сеть в механизм вывода для выполнения.После получения изображения он выполняет вывод обнаружения текста и распечатывает результат в виде четырех точек ( x1
, y1
), ( x2
, y2
), ( x3
, y3
), ( x4
, y4
) для каждого ограничивающего поля текста.
Если предусмотрена модель распознавания текста, демонстрация также распечатывает распознанный текст.
Примечание
По умолчанию, демонстрации Open Model Zoo ожидают ввода с порядком каналов BGR. Если вы обучили свою модель работе с порядком RGB, вам необходимо вручную изменить порядок каналов по умолчанию в демонстрационном приложении или повторно преобразовать модель с помощью инструмента Model Optimizer с указанным аргументом --reverse_input_channels
.Для получения дополнительной информации об аргументе обратитесь к разделу Когда менять местами входные каналы Преобразования модели с использованием общих параметров преобразования.
Подготовка к запуску
Для демонстрационных входных изображений или видеофайлов см. Раздел Мультимедийные файлы, доступные для демонстраций в Обзоре демонстраций Open Model Zoo. Список моделей, поддерживаемых демонстрацией, находится в файле
. Этот файл можно использовать в качестве параметра для загрузчика моделей и конвертера для загрузки и, при необходимости, преобразования моделей в формат OpenVINO Inference Engine (*.xml + * .bin).
Пример использования загрузчика моделей:
python3/tools/downloader/downloader.py --list models.lst
Пример использования Конвертера моделей:
python3/tools/downloader/converter.py --list models.lst
Работает
При запуске приложения с опцией -h
появляется следующее сообщение об использовании:
text_detection_demo [ОПЦИЯ] Параметры: -h Распечатать сообщение об использовании.-i Обязательно. Вход в процесс. На входе должно быть одно изображение, папка с изображениями, видеофайл или идентификатор камеры. -loop Необязательно. Разрешить чтение ввода в цикле. -o "<путь>" Необязательно. Имя выходного файла (ов) для сохранения. -limit "<число>" Необязательно. Количество кадров для сохранения на выходе. Если установлен 0, все кадры сохраняются. -m_td "<путь>" Обязательно.Путь к файлу модели обнаружения текста (.xml). -m_tr "<путь>" Обязательно. Путь к файлу модели распознавания текста (.xml). -dt "<тип>" Необязательно. Тип декодера: простой для SimpleDecoder или ctc для жадных CTC декодеров и декодеров поиска луча CTC. По умолчанию - ctc. -m_tr_ss "<значение>" Необязательно. Набор символов для модели распознавания текста. -tr_pt_first Необязательно. Указывает, является ли маркер прокладки первым символом в алфавите.По умолчанию false -ниже Необязательно. Установите этот флаг, чтобы преобразовать распознанный текст в нижний регистр -out_enc_hidden_name "<значение>" Необязательно. Имя скрытого большого двоичного объекта вывода кодировщика модели распознавания текста -out_dec_hidden_name "<значение>" Необязательно. Имя выходного скрытого blob-объекта декодера модели распознавания текста -in_dec_hidden_name "<значение>" Необязательно. Имя входного скрытого объекта декодера модели распознавания текста -features_name "<значение>" Необязательно.Название модели распознавания текста функции blob -in_dec_symbol_name "<значение>" Необязательно. Имя входного BLOB-объекта декодера модели распознавания текста (предыдущий декодированный символ) -out_dec_symbol_name "<значение>" Необязательно. Имя блоба вывода декодера модели распознавания текста (распределение вероятностей по токенам) -tr_o_blb_nm "<значение>" Необязательно. Имя выходного большого двоичного объекта модели, который будет использоваться в качестве выходного объекта модели. Если не указано иное, будет использоваться первый объект модели.-cc Необязательно. Если он установлен, то в случае отсутствия Детектора текста модель распознавания текста принимает в качестве входных данных центральную обрезку изображения, но не полный кадр. -w_td "<значение>" Необязательно. Введите ширину изображения для модели обнаружения текста. -h_td "<значение>" Необязательно. Введите высоту изображения для модели обнаружения текста. -thr "<значение>" Необязательно. Укажите порог достоверности распознавания. Кандидаты на обнаружение текста с достоверностью распознавания текста ниже указанного порогового значения отклоняются.-cls_pixel_thr "<значение>" Необязательно. Укажите порог достоверности для классификации пикселей. Пиксели с достоверностью классификации ниже указанного порога отклоняются. -link_pixel_thr "<значение>" Необязательно. Укажите порог достоверности для привязки пикселей. Пиксели с достоверностью связи ниже указанного порога не связаны. -max_rect_num "<значение>" Необязательно. Максимальное количество распознаваемых прямоугольников. Если он отрицательный, количество распознаваемых прямоугольников не ограничено.-d_td "<устройство>" Необязательно. Укажите целевое устройство для модели обнаружения текста (список доступных устройств показан ниже). Демо будет искать подходящий плагин для указанного устройства. По умолчанию это CPU. -d_tr "<устройство>" Необязательно. Укажите целевое устройство для модели распознавания текста (список доступных устройств показан ниже). Демо будет искать подходящий плагин для указанного устройства. По умолчанию это CPU.-l "<абсолютный_путь>" Необязательно. Абсолютный путь к общей библиотеке с реализацией ядер ЦП для настраиваемых слоев. -c "<абсолютный_путь>" Необязательно. Абсолютный путь к реализации ядер GPU для пользовательских слоев. -no_show Необязательно. Если это правда, то обнаруженный текст не будет отображаться во фрейме изображения. По умолчанию это ложь. -r Необязательно. Вывод результатов вывода в виде необработанных значений.-u Необязательно. Список мониторов для показа на начальном этапе. -b Необязательно. Полоса пропускания для декодера поиска луча CTC. Значение по умолчанию - 0, в этом случае будет использоваться жадный декодер CTC.
При запуске приложения с пустым списком опций появляется сообщение об использовании, указанное выше, и сообщение об ошибке.
Например, используйте следующую команду командной строки для запуска приложения:
./text_detection_demo \ -i <путь_к_образу> / образец.jpg \ -m_td <путь_к_модели> /text-detection-0004.xml \ -m_tr <путь_к_модели> /text-recognition-0014.xml \ -dt ctc \ -tr_pt_first \ -tr_o_blb_nm "logits"
Для распознавания текста-resnet-fc
и распознавания текста-0015
вы должны использовать простой декодер
для опции -dt
. Для других моделей используйте декодер ctc
(декодер по умолчанию). В случае модели text-распознавание-0015
укажите путь к text-распознаванию-0015-encoder Модели
для ключа -m_tr
и часть декодера будут найдены автоматически, как показано в примере ниже:
./ text_detection_demo \ -i <путь_к_изображению> /sample.jpg \ -m_td <путь_к_модели> /text-detection-0003.xml \ -m_tr <путь_к_модели> / распознавание-текста-0015 / распознавание-текста-0015-кодировщик / <точность> /text-recognition-0015-encoder.xml \ -dt простой \ -tr_pt_first \ -tr_o_blb_nm "логиты" \ -m_tr_ss "? 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
> ПРИМЕЧАНИЕ : Если вы предоставляете одно изображение в качестве входных данных, демонстрация обрабатывает и отображает его быстро, а затем завершает работу.Чтобы непрерывно визуализировать результаты вывода на экране, примените опцию loop
, которая обеспечивает обработку одного изображения в цикле.
Вы можете сохранить обработанные результаты в файл Motion JPEG AVI или в отдельные файлы JPEG или PNG, используя параметр -o
:
Чтобы сохранить обработанные результаты в файле AVI, укажите имя выходного файла с расширением
avi
, например:-o output.avi
.Чтобы сохранить обработанные результаты как изображения, укажите имя шаблона выходного файла изображения с расширением
jpg
илиpng
, например:-o output_% 03d.jpg
. Фактические имена файлов создаются из шаблона во время выполнения путем замены регулярного выражения% 03d
на номер кадра, в результате получается следующее:output_000.jpg
,output_001.jpg
и так далее. Чтобы избежать переполнения дискового пространства в случае непрерывного входного потока, такого как камера, вы можете ограничить объем данных, хранящихся в выходных файлах, с помощью параметраlimit
. Значение по умолчанию - 1000. Чтобы изменить его, вы можете применить параметр-limit N
, гдеN
- количество кадров для сохранения.
> ПРИМЕЧАНИЕ : В системах Windows * кодек Motion JPEG может не быть установлен по умолчанию. В этом случае вы можете загрузить серверную часть OpenCV FFMPEG с помощью сценария PowerShell, поставляемого с установочным пакетом OpenVINO и расположенного по адресу
. Скрипт следует запускать с правами администратора, если OpenVINO установлен в системной защищенной папке (это типичный случай). Кроме того, вы можете сохранить результаты как изображения.
Демо-вывод
В демонстрации используется OpenCV для отображения результирующего кадра с обнаружениями, отображаемыми в виде ограничивающих рамок и текста.
pytesseract · PyPI
Python-tesseract - это инструмент оптического распознавания символов (OCR) для Python.
То есть он распознает и «прочитает» текст, встроенный в изображения.
Python-tesseract - это оболочка для Google Tesseract-OCR Engine.
Он также полезен как автономный скрипт вызова для tesseract, поскольку он может читать все типы изображений.
поддерживается библиотеками визуализации Pillow и Leptonica, включая jpeg, png, gif, bmp, tiff,
и другие.Кроме того, при использовании в качестве скрипта Python-tesseract распечатает распознанный
текст вместо записи в файл.
ИСПОЛЬЗОВАНИЕ
Краткое руководство
Примечание : Тестовые изображения находятся в папке tests / data репозитория Git.
Использование библиотеки:
попробуйте: из PIL импорта изображения кроме ImportError: импортировать изображение импорт pytesseract # Если у вас нет исполняемого файла tesseract в вашем PATH, включите следующее: pytesseract.pytesseract.tesseract_cmd = r '' # Пример tesseract_cmd = r'C: \ Program Files (x86) \ Tesseract-OCR \ tesseract ' # Простое изображение в строку печать (pytesseract.image_to_string (Image.open ('test.png'))) # Список доступных языков печать (pytesseract.get_languages (config = '')) # Изображение текста на французском языке в строку print (pytesseract.image_to_string (Image.open ('test-european.jpg'), lang = 'fra')) # Чтобы обойти преобразование изображений pytesseract, просто используйте относительный или абсолютный путь к изображению # ПРИМЕЧАНИЕ: в этом случае вы должны предоставить изображения, поддерживаемые tesseract, иначе tesseract вернет ошибку печать (pytesseract.image_to_string ('test.png')) # Пакетная обработка с одним файлом, содержащим список путей к нескольким файлам изображений печать (pytesseract.image_to_string ('images.txt')) # Тайм-аут / завершение работы тессеракта через некоторое время пытаться: print (pytesseract.image_to_string ('test.jpg', timeout = 2)) # Тайм-аут через 2 секунды print (pytesseract.image_to_string ('test.jpg', timeout = 0.5)) # Тайм-аут через полсекунды кроме RuntimeError как timeout_error: # Обработка Tesseract прекращена проходить # Получить оценки ограничивающей рамки печать (pytesseract.image_to_boxes (Image.open ('test.png'))) # Получайте подробные данные, включая поля, секреты, номера строк и страниц печать (pytesseract.image_to_data (Image.open ('test.png'))) # Получить информацию об ориентации и обнаружении скрипта печать (pytesseract.image_to_osd (Image.open ('test.png'))) # Получить PDF-файл с возможностью поиска pdf = pytesseract.image_to_pdf_or_hocr ('test.png', extension = 'pdf') с open ('test.pdf', 'w + b') как f: f.write (pdf) # тип pdf по умолчанию - байты # Получить вывод HOCR hocr = pytesseract.image_to_pdf_or_hocr ('test.png ', extension =' hocr ') # Получить вывод ALTO XML xml = pytesseract.image_to_alto_xml ('test.png')
Поддержка изображений OpenCV / объектов массива NumPy
импорт CV2 img_cv = cv2.imread (r '/ <путь_к_изображению> /digits.png') # По умолчанию OpenCV хранит изображения в формате BGR, а поскольку pytesseract принимает формат RGB, # нам нужно преобразовать из BGR в формат / режим RGB: img_rgb = cv2.cvtColor (img_cv, cv2.COLOR_BGR2RGB) печать (pytesseract.image_to_string (img_rgb)) # ИЛИ img_rgb = Image.frombytes ('RGB', img_cv.shape [: 2], img_cv, 'raw', 'BGR', 0, 0) печать (pytesseract.image_to_string (img_rgb))
Если вам нужна специальная конфигурация, например oem / psm , используйте ключевое слово config .
# Пример добавления каких-либо дополнительных опций custom_oem_psm_config = r '- OEM 3 --psm 6' pytesseract.image_to_string (изображение, config = custom_oem_psm_config) # Пример использования предопределенного файла конфигурации tesseract с параметрами cfg_filename = 'слова' pytesseract.run_and_get_output (изображение, расширение = 'txt', config = cfg_filename)
Добавьте следующую конфигурацию, если у вас есть ошибка tessdata, например: «Ошибка при открытии файла данных…»
# Пример конфигурации: r '- tessdata-dir "C: \ Program Files (x86) \ Tesseract-OCR \ tessdata"' # Важно заключать путь к каталогу в двойные кавычки.tessdata_dir_config = r '- tessdata-dir ""' pytesseract.image_to_string (изображение, lang = 'chi_sim', config = tessdata_dir_config)
Функции
- get_languages Возвращает все языки, поддерживаемые в настоящее время Tesseract OCR.
- get_tesseract_version Возвращает версию Tesseract, установленную в системе.
- image_to_string Возвращает неизмененный вывод в виде строки из обработки Tesseract OCR
- image_to_boxes Возвращает результат, содержащий распознанные символы и их границы поля
- image_to_data Возвращает результат, содержащий границы поля, достоверность и другую информацию.Требуется Tesseract 3.05+. Для получения дополнительной информации, пожалуйста, ознакомьтесь с документацией Tesseract TSV
- image_to_osd Возвращает результат, содержащий информацию об ориентации и обнаружении скрипта.
- image_to_alto_xml Возвращает результат в форме формата ALTO XML Tesseract.
- run_and_get_output Возвращает необработанный вывод из Tesseract OCR. Дает немного больше контроля над параметрами, которые отправляются в tesseract.
.
Параметры
image_to_data (image, lang = None, config = '', nice = 0, output_type = Output.STRING, тайм-аут = 0, pandas_config = None)
- image Object or String - PIL Image / NumPy массив или путь к файлу изображения, которое будет обработано Tesseract. Если вы передадите объект вместо пути к файлу, pytesseract неявно преобразует изображение в режим RGB.
- lang String - Строка кода языка Tesseract. Если не указано иное, по умолчанию используется английский язык! Пример для нескольких языков: lang = 'eng + fra'
- config String - Любые дополнительные настраиваемые флаги конфигурации , которые недоступны через функцию pytesseract.Например: config = '- psm 6'
- nice Integer - изменяет приоритет процессора для запуска Tesseract. Не поддерживается в Windows. Nice регулирует удобство unix-подобных процессов.
- output_type Атрибут класса - указывает тип вывода, по умолчанию строка. Полный список всех поддерживаемых типов можно найти в определении класса pytesseract.Output.
- timeout Integer or Float - продолжительность в секундах для обработки OCR, после которой pytesseract завершит работу и вызовет RuntimeError.
- pandas_config Dict - только для типа Output.DATAFRAME . Словарь с настраиваемыми аргументами для pandas.read_csv. Позволяет настроить вывод image_to_data .
Использование CLI:
pytesseract [-l lang] файл_образа
.
Добавить комментарий