Опыт: автоматизация обработки договорной документации

  • avatar

    Георгий Гончаров

    Георгий Гончаров

    инженер-консультант SOICA

  • Источник Клуб ОЦО

    Современные OCR-решения выходят за рамки простого распознавания данных в скан-копиях. Сейчас эта технология широко используется для работы с цифровыми документами совместно с системами хранения или обработки документации благодаря функциям сверки разных версий документов, возможности извлекать различные данные, контролировать наличие штампов, подписей и других элементов, а также выполнять проверки с внешними базами, например ФНС, МВД и другими. Георгий Гончаров, инженер-консультант SOICA, компания SL Soft, поделился с Клубом ОЦО опытом внедрения OCR-решения для обработки договорной документации в компании. 

    Сценарии обработки договоров 

    При реализации проекта по обработке договорной документации для крупного ИТ-дистрибьютора было внедрено OCR-решение SOICA. В рамках проекта было реализовано четыре сценария обработки договоров. 

    Сценарий 1: полнотекстовая сверка двух договоров. Применяется для сличения ранее согласованного договора в формате docx с версией, присланной контрагентом, например, с подписанным сканом в формате pdf. Сравнение документов происходит посимвольно, цветом подсвечиваются места разночтений по двум документам. Это позволяет пользователю системы оперативно реагировать на изменения со стороны контрагента (см. рисунок).

    soica01.jpg



    Сценарий 2: сравнение договора с шаблоном. В сравнении участвует шаблон документа и заполненная версия. При проверке пропускаются изменяемые фрагменты (номер и дата договора, заказчик и т.д.), а основной текст, прописанный в теле договора, сверяется полнотекстово — посимвольно и построчно. При обнаружении расхождений SOICA оповещает пользователя о нарушениях и выделяет цветом обнаруженные изменения. 

    Сценарий 3: классификация и атрибутирование. При поступлении договора на обработку происходит его полнотекстовый анализ и дальнейшая классификация. Например, по признаку «язык» документы делятся на англоязычные, русскоязычные и двуязычные, по типу — на договоры аренды, предоставления услуг и т.д. После этого в соответствии с классификацией из договора извлекаются нужные атрибуты. Атрибуты позволяют разделить информацию и в каждый департамент направить только те данные, которые нужны для работы конкретного подразделения. Так, юристам отправляется одна информация, кредитному отделу — другая. Также в этом сценарии ИТ-решение контролирует, на месте ли необходимые элементы — подписи, печати, реквизиты, адреса и т.п. 

    Сценарий 4: финализация договорной документации. Этот сценарий включает в себя комплексную обработку договора: полнотекстовое распознавание, извлечение требуемых атрибутов, перевод в pdf-версию и нанесение QR-кода по правилам, определенным заказчиком. QR-код содержит номер договора, дату и ссылку на внутреннюю систему хранения. 

    Этапы внедрения OCR-решения 

    Все этапы внедрения являлись типовыми — эта схема справедлива для большинства наших проектов. На первом этапе выполняется аудит текущих процессов. Здесь мы изучаем, как организован текущий процесс обработки документации, и выявляем типы договоров, с которыми в дальнейшем будет работать OCR-решение. Второй этап — обучение системы на реальных документах. Обучение может проходить на мощностях заказчика. В данном случае база содержала чуть более 500 договоров. На этой ступени прорабатываются алгоритмы работы с каждым типом документов, а также операции, которые необходимо выполнить системе. Далее OCR-решение проводит классификацию документа до извлечения атрибутов, на основе которых формируется карточка документа. Затем сформированная карточка передается в систему заказчика. 

    Технические особенности внедрения 

    Внутри системы электронного документооборота заказчика реализован коннектор к системе распознавания. В СЭД пользователь нажимает кнопку добавления документа на распознавание, после чего файл из системы отправляется в SOICA. Далее происходит обработка массива данных, классификация, извлечение атрибутов, затем формируется XML-файл, который передается по REST API обратно в СЭД. Пользователь получает финальный результат в привычном ему интерфейсе. Благодаря открытому REST API решение может быть интегрировано в любые системы заказчика. Мы предоставляем систему полностью — у заказчика есть модули администрирования и валидации. В модуле администратора возможно как настраивать с нуля правила обработки новых типов документов, так и редактировать уже существующие. Вся настройка осуществляется по принципу no-code, поэтому SOICA проста в освоении. Кроме того, мы как разработчик осуществляем техподдержку и помощь в обучении, передаем видеоуроки и лабораторные работы. 

    Эффективность автоматизации 

    Очевидные преимущества — значительное повышение скорости работы с договорами, уменьшение роли человеческого фактора при проверке документов и, как следствие, снижение рисков внесения несанкционированных изменений. При реализации данного проекта дополнительно были улучшены механизмы работы менеджеров с договорной документацией, позволяющие сохранять всю историю изменения документа и отслеживать его текущий статус.

    Оригинал статьи доступен по ссылке 
    Платформа SOICA

    Универсальная платформа для интеллектуальной обработки документов

    image
    новости и публикации
    gradient
    На связи с вами — 
    по любому вопросу