БОСС
HR-системы
ROBIN
Платформа
Цитрос
Автоматизация ЭДО
Polymatica
Инструменты аналитики
Преферентум
Интеллектуальная обработка текста
Citeck
Low-Code BPM-платформа

От распознавания до генерации: искусственный интеллект в управлении знаниями

  • avatar

    Николай Тржаскал

    Николай Тржаскал

    директор по продукту «Преферентум»

  • Источник RSpectr

    Решения на основе технологий искусственного интеллекта помогают сотрудникам компаний быстрее и качественнее выполнять рутинные операции. Они также способствуют систематическому накоплению корпоративной базы знаний и получению бизнес-эффектов от ее применения. Как с помощью интеллектуальной обработки текста извлечь из него максимальную пользу, читателям RSpectr рассказывает директор по продукту «Преферентум» компании SL Soft Николай Тржаскал.

    К эффективным бизнес-процессам

    В 2025 году стартует национальный проект «Экономика данных», подтверждающий, что государство осознает ценность накопления и обработки знаний. Бизнес не отстает – компании по всему миру учатся максимально эффективно использовать получаемую из разных источников информацию: правильно ее собирать, классифицировать, очищать и обогащать. После такой обработки данные уже готовы к тому, чтобы сотрудники и руководители бизнеса могли обмениваться ими и ежедневно использовать для принятия объективных решений.

    Главная цель системы управления знаниями – обеспечить доступ к точным и актуальным данным всем заинтересованным лицам

    Фундаментальную роль в распространении и преумножении знаний играет текстовая информация. Вспомним, например, насколько значимым событием в развитии цивилизации стало изобретение письменности, затем книгопечатания, а много позже и возможность передавать тексты не только на физических носителях, но и в электронном виде.

    Сегодня скорость создания новой информации и ее накопления чрезвычайно высока. С одной стороны, кажется, что это серьезное преимущество. 

    С другой – многократно доказано, что увеличение объема данных далеко не всегда ведет к росту знаний

    Например, в любой организации большое место в хранилищах занимает забытая или слабодоступная информация. Допустим, два месяца назад сотрудник прочитал аналитическую записку и увидел в ней что-то важное. Как ему теперь найти этот документ в архиве? В большинстве случаев внутри систем хранения нет полнотекстового поиска по содержимому документов. Можно искать только по метаданным – названию файла, дате или тэгам. Но что, если название не отражает суть содержания или документ не был правильно размечен? В этом случае человек не может найти именно тот фрагмент информации, который ему нужен, даже если сам документ в архиве все-таки существует.

    Отсутствие полнотекстового поиска значительно ограничивает доступность и эффективность использования данных

    В такой ситуации информация теряет свою ценность: несмотря на ее наличие, она оказывается скрытой, и доступ к ней становится неэффективным. Без полнотекстового поиска даже самые важные и ценные документы могут стать труднодоступными, что ведет к снижению производительности и увеличению времени, которое сотрудники тратят на выполнение задач.

    Современная система управления знаниями должна иметь механизм контекстного поиска, учитывающий связи между понятиями, идеями и смыслами.

    Важная задача обработки текстовой информации – поддержка мультимодальности

    То есть обработка разных форматов представления текста, в том числе графического. Потому что надписи, размещенные, например, на рисунке или графике, тоже могут представлять большую ценность и служить ключом при поиске данных.

    Чтобы лучше осознать экономическую подоплеку системы управления знаниями для бизнеса, вспомним, что средний срок работы сотрудников в компаниях по всему миру сокращается. Если в 2019 году он составлял 4,6 года, то к 2022-му он сократился на 10% до 4,1 года. Одному из наших клиентов пришлось запускать целый проект по автоматизации бизнес-процесса в бухгалтерии только потому, что сотрудник, который вел ее много лет, вышел на пенсию.

    С учетом роста объемов данных такие ситуации будут возникать все чаще. Например, уходит ключевой специалист, который отвечает за какую-то предметную область, и большой пласт знаний теряется, даже если все тщательно задокументировано.

    Если эти материалы хранятся несистемно, без возможности контекстного поиска, новый сотрудник не сможет их быстро изучить или найти в них ответ на актуальный вопрос. Соответственно, он допускает ошибки, а если компания проводит крупные сделки, то это означает огромные потенциальные потери.

    Еще одна причина связана с развивающимся законотворчеством: если в 2013 году Госдума РФ приняла 400 законов, то в 2023-м – рекордные 694. Это означает, что большое количество понятий, которые использовались в юридической практике еще вчера, становятся невалидными сегодня.

    Организации любого уровня, от федеральных ведомств до индивидуальных предпринимателей, должны это учитывать: постоянно мониторить изменения и вести деятельность в соответствии с текущими стандартами и нормативами. Если компания этим занимается недостаточно тщательно, она рискует получить штрафы.

    Шесть шагов

    Мы выделяем шесть этапов обработки текстовой информации, которые сегодня способна выполнить система на основе технологий искусственного интеллекта.

    Первый этап – это распознавание текстов из различных источников

    В организацию поступают документы в форматах DocX, ODT, RTF, Pages, PDF и других. Основным видом считается PDF, который может содержать текстовый слой или быть полностью графическим (например, скан). Также нередко встречаются изображения или сканы документов (PNG, JPG, TIFF), где текстового слоя нет в принципе.

    Для преобразования графических данных в текст используются технологии Optical Character Recognition (OCR). Современные решения, применяемые в платформах Intelligent Document Processing (IDP), не только распознают текст, но и восстанавливают структуру документа, выделяя таблицы, списки, изображения и подписи.

    Второй этап – синтаксический анализ или построение грамматической структуры текста

    На этой стадии система анализирует грамматическую структуру текста, определяя связи между словами (подлежащее, сказуемое, дополнение и т. д.), и выстраивает синтаксическую модель. Такой анализ обеспечивает понимание структуры текста, что необходимо для дальнейшего смыслового и онтологического анализа. Если текст плохо структурирован (например, содержит несвязные фрагменты), предварительно проводится его разметка и упорядочивание.

    Третий этап – семантический (смысловой) анализ

    Его цель – интерпретация значений слов и выражений в контексте, определение темы текста и выявление смысловых связей между понятиями. Семантический анализ позволяет разрешать неоднозначности, например, различать смысл многозначных слов, а также формировать векторные представления текста для более глубокого исследования. Результаты работы семантического анализа используются для классификации, кластеризации и построения онтологических графов.

    Четвертый этап – классификация и кластеризация текста

    Система выделяет ключевые слова и признаки, по которым текст относится к определенной категории или классу. Например, документ может быть связан с конкретным подразделением компании, типом обращения или видом задачи. Кластеризация позволяет группировать схожие тексты без предварительного указания их категорий, что особенно полезно при работе с большими массивами данных.

    Пятый этап – онтологический анализ

    Система выявляет сущности, упомянутые в тексте (например, имена, компании, локации), и устанавливает связи между ними. Этот анализ позволяет формировать онтологические графы, объединяющие понятия и их отношения в единую структуру знаний. Онтологический анализ помогает системе уточнять смысл текста, интегрировать его с внешними базами данных и использовать полученные данные для интеллектуального поиска, автоматических рекомендаций или принятия решений.

    Шестой этап – стилистический анализ текста и проверка оформления

    На заключительном этапе система анализирует языковые и визуальные особенности текста. Оценивается тональность, уровень формальности, и выявляются стилистические ошибки. Также проводится проверка оформления документа: унификация шрифтов, межстрочных интервалов, заголовков и других элементов форматирования. Тексты с канцеляризмами, орфографическими ошибками и несоответствиями в оформлении преобразуются в более читабельный и профессиональный вид.

    Возможности ИИ в управлении знаниями

    После тщательной предварительной обработки текстовый документ (или документ другого формата, снабженный текстовым слоем) становится частью единой цифровой среды, предназначенной для формирования системы знаний и интеллектуального управления данными. Их базовые сценарии универсальны и могут быть применены в каждой организации.

    Интеллектуальный поиск включает в себя не только классический поиск слов или их сочетаний по всей базе документов, но и семантический

    Задав системе запрос на естественном языке, мы получаем ответ за доли секунды. При этом поддерживаются такие функции, как автоматическая корректировка ошибок или опечаток в запросе, персонализация результатов выдачи, сохранение истории запросов, мультиязычный поиск, поддержка возможности создать новый уточняющий запрос на базе уже сформированного ответа.

    Диалоговый агент – это возможность вести диалог с виртуальным сотрудником на естественном языке в режиме чат-бота. Система готова ответить на вопросы, опираясь на данные корпоративной базы знаний, предоставить справку по регламентам и нормативно-правовым актам, поделиться другой важной информацией, которую сможет найти.

    Сервис проверки документов и обращений – поиск несоответствий, противоречий и ошибок

    Это важная часть проверки договоров, закупочной документации, внутренней канцелярии компании и прочего. Например, в проекте для одного из министерств РФ мы разработали систему автоматизированного контроля соответствия законопроектов, нормативных правовых актов и государственной регистрации ведомственных нормативно-правовых актов, которые инициируются в ведомстве, установленным стандартам.

    Сегодня в системе реализовано более 90 правил проверки соответствующих документов, ее точность и полнота составляет 80%

    При этом качество издаваемых государственных документов растет так же, как и скорость их подготовки.

    Еще один пример реализации данного сценария – помощь подразделению информационной безопасности, куда приходят заявки на доступ новых сотрудников к определенным ИС и другим корпоративным ресурсам. Система изучает внутренние регламенты и в автоматизированном режиме открывает доступ сотруднику к нужным сервисам согласно его должности или функции.

    Кроме того, в любую организацию каждый день приходят сотни обращений по разным каналам. Система управления знаниями помогает анализировать деловую переписку и отправлять необходимую информацию релевантному человеку в кратчайшие сроки.

    ГенИИ, или сервисы для генерации контента для самых разных задач. Например, после качественной классификации входящих документов на базе текстовой аналитики система может не только маршрутизировать корреспонденцию, но и с помощью генеративного ИИ автоматически подготовить ответ на типовой запрос, если он присутствует в документе.

    Генерация контента важна при формировании тестовых заданий

    Во многих компаниях при выходе сложных внутренних регламентов, политик или инструкций обязательно проводится тренинг с последующим внутренним тестированием. Такие тесты ранее разрабатывались вручную, но теперь эту задачу можно переложить на генеративный ИИ. Причем система может сформировать тестовые задания в автоматическом режиме сразу после публикации документа, генерируя подходящие вопросы с учетом должности проверяемого.

    Система управления знаниями в организации начинается с унификации обработки текстовой информации, которая поступает в любых форматах и из разных источников. Затем создается единое контролируемое цифровое пространство. Искусственный интеллект в этом процессе – отличный инструмент для цифровой трансформации, так как он облегчает доступ к информации и помогает эффективно ее обрабатывать.

    Функциональные решения Преферентум

    Готовые сервисы для обработки текстовой информации

    image
    новости и публикации
    gradient
    На связи с вами — 
    по любому вопросу