Конвейер по распознаванию и обработке данных: интеллектуальные OCR-технологии на практике
Александр Павлов
Александр Павлов
управляющий директор Robovoice, директор по развитию SOICA
Системы оптического распознавания символов или Optical Character Recognition кардинально меняют подход к организаций документооборота. Используя технологии AI/ML, OCR-платформы позволяют сократить до минимума ручную обработку входящих данных из различных источников, обеспечивают быструю и точную классификацию и маршрутизацию документов, заполнение необходимых полей и другие операции.
OCR сегодня
Современная платформа OCR представляет собой своеобразный конвейер для автоматизированного распознавания, извлечения и обработки документов. Она способна работать со структурированными и неструктурированными документами множества форматов, например, PDF, DOCX, JPEG, поступающими из разных источников, к примеру с электронной почты, API, сетевых папок.
Если это нужно, OCR определяет тип и комплектность пакета документов. В случае, когда комплект не полный, система может дозапросить недостающий документ, отправив соответствующий e-mail. Если это требуется, она модифицирует исходное изображение: например, деперсонализирует его или накладывает факсимиле.
На финальном этапе происходит выгрузка обработанных данных либо в целевую систему, либо в XML формат.
Особенности OCR-движков
OCR-платформы различаются по качеству и функциональности движка, которые считаются основой технологии распознавания. Поэтому от его характеристик зависит:
- необходимость и количество выполняемых операций по предобработке документов данных;
- сложность настройки извлечения данных;
- время обработки документов.
Раскрою подробнее каждый пункт.
Предобработка документов. OCR-система часто работает со скан- и фотообразами документов, которые порой бывают низкокачественными — с размытостями, следами потертостей, перекосами.
Если движок не справляется с ними в оригинальном состоянии, то потребуется настройка предобработки. Она заключается в выполнении очистки и фильтрации, улучшающих четкость изображения еще до начала работы по непосредственному распознаванию данных.
Современная OCR-платформа обязана содержать множество специальных фильтров, которые можно комбинировать и таким образом заметно улучшать качество поступающих изображений.
Функциональность движка влияет на сложность и трудоемкость последующей настройки извлечения и обработки различных данных. Например, если движок умеет распознавать только текст и его координаты, а задача — извлечь определенные данные из таблицы, то потребуется дополнительный инструментарий. Наиболее эффективный движок — тот, который умеет различать таблицы, печати, гербы, линии, чекбоксы и другие графические примитивы автоматически, без внешних инструментов.
Способы извлечения данных. Кроме того, есть разные подходы к настройке поиска целевых данных. Стандартная настройка заключается в поиске «якорей» и дальнейшей отстройке от них с целью определения следующего промежуточного «якоря» или зоны поиска целевых данных. Все вместе образует что-то вроде логической цепочки извлечения, состоящей из применяемых последовательно инструментов системы.
Поскольку цепочка может состоять из 20+ элементов, то от сотрудника, настраивающего эту логику, требуется хорошее знание всей OCR-платформы.
Есть и другой подход, значительно сокращающий длину логической цепочки — использование ML. В этом случае необходимо выполнить предварительное обучение модели на типовых примерах. Как это работает: загружается набор примеров документов, состоящий минимум из 50 образцов, например, сканы водительских прав, далее мышкой размечаются области данных в графическом редакторе или сами данные — в зависимости от инструмента.
После обучения система будет самостоятельно точно извлекать нужную информацию. Провести обучение модели типовых документов проще и часто быстрее, чем выстроить длинную логическую цепочку, охватывающую вариативность различных форм документов.
Отдельный вызов для OCR-систем — обработка рукописного текста. До недавнего времени они могли только детектировать факт его наличия, например, вручную прописанная дата договора, но с его распознаванием всегда возникали сложности. В этом случае документ, как правило, в удобном виде поступал на рассмотрение к специальному сотруднику — валидатору, который вручную в интерфейсе вводил необходимую информацию.
Современные технологии позволяют распознавать рукописный текст в качестве, сопоставимом с распознаванием печатного: например, в SOICA точность распознавания рукописного текста превышает 80 процентов. Кроме того, OCR-движок можно дообучать, чтобы он мог реагировать на специальные шрифты, символы, иностранный язык и другие объекты.
Время обработки документов. Итоговое время обработки складывается из качества и функциональных особенностей OCR-движка, а также из времени, затрачиваемого на предобработку, если она требуется. Чем менее функционален движок, тем больше времени нужно потратить на применение дополнительных инструментов для получения качественного результата распознавания данных.
Сценарии применения OCR
Приведем наиболее распространенные сценарии применения инструментов OCR.
Извлечение атрибутов из документа. Система извлекает из документа выбранные при ее настройке атрибуты — например, для заполнения формы или карточки акта в сторонней системе. При этом у валидатора есть возможность вносить корректировки вручную, если это необходимо.
Полнотекстовое распознавание. Допустим, на вход поступает файл PDF, а на выход система выдает несколько представлений того же самого документа: оригинальный файл; PDF с нанесением распознанного слоя, на котором мы можем выделить нужную область, произвести поиск, скопировать информацию.
Полнотекстовое распознавание используется для индексации информации из документа и в последующего поиска в электронном архиве, а также для получения редактируемой версии документа.
Полнотекстовая сверка. Здесь на вход поступают два документа, причем они могут быть в разных форматах, например, один в PDF, другой — в DOCX, содержание которых система должна сравнить между собой. Разночтения можно выгрузить в формате DOCX, где они будут внесены в режиме рецензирования, либо в PDF, где они будут выделены цветом. Это применяется, например, когда нужно убедиться, что контрагент не внес несогласованных правок в договор.
Сверка с шаблоном. Работа ведется с двумя документами: первый предназначен для сверки, второй является шаблоном, в котором предварительно указаны области, допустимые для изменений. Например, номер договора, место для постановки подписи, название заказчика-исполнителя. Все остальные области система будет сверять на наличие разночтений. Такая проверка позволяет убедиться, что недопустимая для правки часть договора осталась в изначальном виде.
Деперсонализация. Система может видоизменять изображение таким образом, чтобы обеспечить конфиденциальность содержащихся в нем персональных данных: например, найти и скрыть серым прямоугольником MRZ строку, серию и номер в скане паспорта. Применяется, например, для обеспечения должного доступа к персональным данным, хранящимся в ИС компаний: ряд сотрудников для выполнения своих функций не должен иметь доступ ко всему набору персональных данных, но должен к некоторым из них.
Нанесение дополнительных элементов. Система способна нанести на итоговое изображение графические элементы: факсимиле, печать, подпись, штамп, штрихкод или QR-код. Например, она может распознать на скане паспорта ФИО владельца, зашифровать их в QR-коде и разместить его на документе.
Проверка на обязательное поле. Система проверяет наличие определенных данных в соответствующих полях документа. Если такие данные отсутствуют, она подсвечивает пустое поле цветом, сигнализируя сотруднику о наличии ошибки.
Где применяются OCR-решения
Во-первых, они нужны для работы со скан-копиями самых различных документов. Во-вторых, такие системы по обработке данных используются при работе с изначально цифровыми документами, полученными в личном кабинете операторов ЭДО. Там карточка документа неформализованного типа обычно содержит неполные данные.
Некоторые документы и вовсе могут быть в формате PDF или JPG без выделенного текстового слоя. Поэтому без применения OCR недостающие сведения приходится заполнять вручную.
Фактически OCR-решения используются разными департаментами, при этом минимизируются рутинные операции и сокращается число ошибок.
В бухгалтерии OCR обрабатывает первичные документы, в юридическом департаменте — договоры, уставы, протоколы согласований. В HR-департаменте — используется для распознавания данных в документах, удостоверяющих личность, и кадровых. В маркетинге и продажах — обрабатывает анкеты с опросами покупателей, ценники, чеки, этикетки.
Будущее систем распознавания
OCR-платформы предоставляют пользователям очень мощные и функциональные инструменты для автоматизации бизнес-процессов и распознавания практически любых типов документов. Использование технологий искусственного интеллекта превращает обработку входящих документов из рутины в полностью автоматизированный процесс.
Следующим этапом его развития мы видим извлечение данных из целевых документов с помощью больших генеративных языковых моделей. Настройка их работы будет сводиться к созданию на естественном языке промта, содержащего инструкцию по извлечению целевых данных, что еще больше упростит настройку обработки и сделает использование технологии еще более повсеместным.
Источник: Бизнес‑секреты
по любому вопросу