OCR в СЭД: ИИ-возможности для минимизации ручного труда

Александр Павлов

Директор по развитию SL Soft AI

Источник CNews

Внедрение технологий оптического распознавания символов (OCR) в СЭД/ECM позволяет сократить ручной труд при обработке документов и существенно ускорить процессы документооборота. Александр Павлов, директор по развитию OCR-платформы SOICA компании SL Soft (ГК Softline), рассказал, какие рутинные задачи могут быть автоматизированы, почему не все OCR одинаково полезны и как ИИ-инструменты повлияли на возможности распознавания.

Функциональность OCR для СЭД — примеры применения

На первый взгляд, внедрение юридически значимого электронного документооборота (ЭДО) должно было полностью исключить потребность в использовании OCR в СЭД. Однако этого не произошло и вот почему.

Во-первых, при получении файла в личном кабинете оператора ЭДО карточка неформализованного документа (к ним относятся договоры, приложения, спецификации, акты оказанных услуг и т.п.) зачастую содержит недостаточные для полноценной обработки данные. Это означает, что данные из такой карточки невозможно просто выгрузить в СЭД — сотрудникам приходится вручную вносить информацию из прикрепленных копий документов.

Ситуация осложняется, если документы, поступившие вместе с карточкой, представлены в растровых форматах (например, PDF без текстового слоя или JPG), поэтому из них невозможно напрямую извлечь текст. Даже если документы поступают в электронных форматах, таких как DOCX, недостающие данные все равно приходится вручную искать в файле, выделять, копировать и переносить в систему. По трудозатратам это почти не отличается от ручного ввода информации «с нуля».

Во-вторых, ЭДО — не единственный канал получения данных. На практике любая компания получает огромное количество самых разных документов, как электронных, так и бумажных, через различные каналы (почта, email и т.д.). Стремясь к повышению эффективности обработки этих документов, компании сталкиваются с задачей создания их электронных копий и последующей передачей извлеченной информации в учетные системы, СЭД и архивы. OCR-системы как раз предназначены для автоматизации рутинных операций при работе с документами, в том числе на этапе ввода данных в ИС.

Рассмотрим разные сценарии применения OCR при работе с СЭД, которые помогут повысить эффективность обработки документов:

Автоматизация ввода данных в СЭД: OCR выделяет необходимые атрибуты из поступающих документов и передает их в целевую систему в требуемом формате. Это значительно ускоряет процесс обработки документов и снижается количество ошибок, связанных с ручным вводом.
Дополнительные проверки при вводе данных: OCR может также выполнять сопутствующие задачи, такие как проверка наличия необходимых печатей и подписей, а также проверка комплектности пакета документов. Это помогает повысить точность и полноту вводимой информации.
Распознавание и сверка текста в согласованных и подписанных договорах: OCR позволяет сравнивать текст в различных версиях договора, подписанных обеими сторонами, что способствует повышению юридической безопасности и снижению рисков мошенничества со стороны контрагентов.
Полнотекстовое распознавание в отсканированных материалах или фотографиях документов: OCR обеспечивает возможность поиска по содержимому ранее бумажных документов. Используется, например, при оцифровке бумажного архива.

В дополнение к применению в СЭД, OCR находит свое место и в других бизнес-процессах:

Финансы — OCR применяется для автоматизации ввода данных из счетов, договоров и актов в учетные информационные системы. Благодаря дополнительным проверкам (арифметические проверки сумм, сверка со справочниками) снижается число ошибок.
Маркетинг — автоматическая обработка заполненных (даже вручную) клиентами анкет.
Автоматизация обработки клиентских заявок на кредиты, страховки, лизинг и т.п. — к ним прикладываются ДУЛы, договоры, СНИЛС и другие документы, из которых надо извлекать данные.
HR — автоматизация ввода данных из документов сотрудников (ДУЛы, дипломы, трудовые книжки и т.д.) при приеме на работу.
Техническая документация — автоматизация индексации технической документации (чертежи, схемы и т.д.) для загрузки и последующего поиска в электронном архиве.
Входящая корреспонденция, например, по email — классификация и дальнейшая маршрутизация.

Применение искусственного интеллекта в OCR

Сейчас громко звучит тема ИИ, в том числе, и в контексте OCR-решений. Разберемся, что это означает для пользователей и как влияет на возможности распознавания.

Современная архитектура OCR-систем включает в себя компоненты интеллектуального распознавания, но следует учитывать, что понятие «интеллектуальности» может интерпретироваться по-разному.

Первый подход можно назвать буквальным — это извлечение текста со сканов плохого качества (например, на документ было что-то пролито, а значит и скан получится нечетким). Возможна электронная реставрация такого текста, то есть система может «додумать» недостающие буквы. При этом она может опираться как на словарь, так и на на смысл, используя соседние символы и слова.

Второй подход связан с полнотекстовым анализом. Здесь весь текст, вместе с его координатами, уже извлечен, и требуется дальнейшая его обработка для получения нужной информации. Сделать это можно разными способами: по жесткому алгоритму (находим ключевые элементы, относительно которых мы определяем область поиска данных) или нейросетями.

В случае с нейросетями можно выделить несколько сценариев, основанных на разных моделях:

Нейролокатор графический (работает с изображением). Данная нейросеть обучается искать геометрические области данных, и ищет наиболее подходящие части на скане документа, опираясь на размеченную выборку обучающих примеров. Подходит как для поиска текстовых данных, так и для графических (печати, подписи, штампы и т.п.).
Нейролокатор текста. Модель работает с поданным на нее текстом, извлекая целевые именованные сущности (например, название производителя из этикеток продуктов). Обучается на основе размеченных фрагментов текста.
LLM (большая языковая модель). Такая нейросеть получает результаты распознавания и запрос (промт) о том, что нужно с ними сделать. В отличие от специализированных моделей, LLM часто не требует дополнительного обучения или требует его в минимальном объеме — это зависит от предметной области. Мультимодальные LLM могут обрабатывать не только текст, но и изображения, что значительно упрощает процесс извлечения данных и делает его более универсальным.

Таким образом, наличие ИИ-инструментов в OCR существенно влияет на качество и скорость распознавания, а также на сложность и продолжительность настройки сценариев обработки документов. Платформа SOICA оснащена передовым OCR-движком и мощными нейросетевыми локаторами, которые обеспечивают всю необходимую функциональность для эффективной работы. В визуальной среде платформы можно без программирования размечать примеры документов, обучать нейросети и настраивать дополнительную обработку для решения самых сложных задач по извлечению данных из различных типов документов. Все это доступно в рамках единого решения.

Отдельная или встроенная в СЭД OCR: как выбрать

Во многих системах электронного документооборота (СЭД) уже есть встроенные OCR-модули. Однако, как мы уже разобрались, ключевым фактором выбора является не просто наличие OCR, а функциональные возможности, которые обеспечиваются ИИ-инструментами. Фактически существует три основных подхода к использованию OCR в сочетании с СЭД/ECM. Рассмотрим каждый из них подробнее.

1. Встроенный OCR с минимальной функциональностью

Первый вариант — это встроенный OCR-модуль в СЭД/ECM с базовыми возможностями. Такие модули часто создаются по принципу «чтобы было» и предназначены для решения только самых простых задач. Разработчики обычно сосредоточены на основном продукте — СЭД или архиве — и могут использовать готовые open source компоненты. Как правило, такие OCR-модули ограничены в функциональности и не подходят для сложных или масштабных задач. Они не включают передовые ИИ-инструменты, что ограничивает их возможности в обработке более сложных документов.

2. Встраиваемый SDK OCR

Второй вариант — использование OCR SDK, интегрированного в СЭД/ECM. Этот подход обеспечивает более широкий спектр возможностей и функциональности OCR, предлагая пользователям продвинутые инструменты для работы с документами. При этом важно убедиться, что все необходимые функции OCR доступны через интерфейс интегрированной системы, и они соответствуют требованиям вашего проекта. Пример подобной синергии — в продукты «Цитрос» для автоматизации документооборота включены встроенные модули оцифровки документов SOICA.

3. Отдельная OCR-платформа

Третий вариант — использование отдельной платформы OCR, которая работает совместно с СЭД/ECM, а также и с другими информационными системами. Компании, выбирающие этот путь, ориентируются на функциональную масштабируемость и понимают, что задачи OCR могут выходить за рамки типовых задач по документообороту. Такой подход позволяет использовать более продвинутые OCR-продукты, например, такие как SOICA, обладающие функциональностью, недоступной встроенным решениям. Обычно это визуальная среда настройки (для самостоятельной настройки обработки любых типов документов без программирования), работа с комплектами документов, рабочее место валидатора и менеджер пакетов (для мониторинга обработки).

Таким образом, при выборе OCR необходимо проанализировать все будущие сценарии применения технологии. Если задачи выходят за контур стандартных типовых задач СЭД/ECM, то однозначно стоит рассматривать отдельные специализированные решения. Они различаются между собой по точности распознавания, скорости обработки, возможности работать с нестандартными документами, способности распознавать рукописный текст, наличию и мощностью среды настройки новых типов документов, необходимости использования языков программирования для настройки, наличию интерфейса для валидации и другим параметрам. Выбор между встроенным и отдельным OCR-решением должен основываться на тщательном анализе ваших текущих и будущих потребностей, объема задач и требований к функциональности.