От распознавания до генерации: искусственный интеллект в управлении знаниями

Николай Тржаскал
Николай Тржаскал
директор по продукту «Преферентум»
Источник
RSpectr
Решения на основе технологий искусственного интеллекта помогают сотрудникам компаний быстрее и качественнее выполнять рутинные операции. Они также способствуют систематическому накоплению корпоративной базы знаний и получению бизнес-эффектов от ее применения. Как с помощью интеллектуальной обработки текста извлечь из него максимальную пользу, читателям RSpectr рассказывает директор по продукту «Преферентум» компании SL Soft Николай Тржаскал.
К эффективным бизнес-процессам
В 2025 году стартует национальный проект «Экономика данных», подтверждающий, что государство осознает ценность накопления и обработки знаний. Бизнес не отстает – компании по всему миру учатся максимально эффективно использовать получаемую из разных источников информацию: правильно ее собирать, классифицировать, очищать и обогащать. После такой обработки данные уже готовы к тому, чтобы сотрудники и руководители бизнеса могли обмениваться ими и ежедневно использовать для принятия объективных решений.Главная цель системы управления знаниями – обеспечить доступ к точным и актуальным данным всем заинтересованным лицам
Фундаментальную роль в распространении и преумножении знаний играет текстовая информация. Вспомним, например, насколько значимым событием в развитии цивилизации стало изобретение письменности, затем книгопечатания, а много позже и возможность передавать тексты не только на физических носителях, но и в электронном виде.
Сегодня скорость создания новой информации и ее накопления чрезвычайно высока. С одной стороны, кажется, что это серьезное преимущество.
С другой – многократно доказано, что увеличение объема данных далеко не всегда ведет к росту знаний
Например, в любой организации большое место в хранилищах занимает забытая или слабодоступная информация. Допустим, два месяца назад сотрудник прочитал аналитическую записку и увидел в ней что-то важное. Как ему теперь найти этот документ в архиве? В большинстве случаев внутри систем хранения нет полнотекстового поиска по содержимому документов. Можно искать только по метаданным – названию файла, дате или тэгам. Но что, если название не отражает суть содержания или документ не был правильно размечен? В этом случае человек не может найти именно тот фрагмент информации, который ему нужен, даже если сам документ в архиве все-таки существует.
Отсутствие полнотекстового поиска значительно ограничивает доступность и эффективность использования данных
В такой ситуации информация теряет свою ценность: несмотря на ее наличие, она оказывается скрытой, и доступ к ней становится неэффективным. Без полнотекстового поиска даже самые важные и ценные документы могут стать труднодоступными, что ведет к снижению производительности и увеличению времени, которое сотрудники тратят на выполнение задач.
Современная система управления знаниями должна иметь механизм контекстного поиска, учитывающий связи между понятиями, идеями и смыслами.
Важная задача обработки текстовой информации – поддержка мультимодальности
То есть обработка разных форматов представления текста, в том числе графического. Потому что надписи, размещенные, например, на рисунке или графике, тоже могут представлять большую ценность и служить ключом при поиске данных.
Чтобы лучше осознать экономическую подоплеку системы управления знаниями для бизнеса, вспомним, что средний срок работы сотрудников в компаниях по всему миру сокращается. Если в 2019 году он составлял 4,6 года, то к 2022-му он сократился на 10% до 4,1 года. Одному из наших клиентов пришлось запускать целый проект по автоматизации бизнес-процесса в бухгалтерии только потому, что сотрудник, который вел ее много лет, вышел на пенсию.
С учетом роста объемов данных такие ситуации будут возникать все чаще. Например, уходит ключевой специалист, который отвечает за какую-то предметную область, и большой пласт знаний теряется, даже если все тщательно задокументировано.
Если эти материалы хранятся несистемно, без возможности контекстного поиска, новый сотрудник не сможет их быстро изучить или найти в них ответ на актуальный вопрос. Соответственно, он допускает ошибки, а если компания проводит крупные сделки, то это означает огромные потенциальные потери.
Еще одна причина связана с развивающимся законотворчеством: если в 2013 году Госдума РФ приняла 400 законов, то в 2023-м – рекордные 694. Это означает, что большое количество понятий, которые использовались в юридической практике еще вчера, становятся невалидными сегодня.
Организации любого уровня, от федеральных ведомств до индивидуальных предпринимателей, должны это учитывать: постоянно мониторить изменения и вести деятельность в соответствии с текущими стандартами и нормативами. Если компания этим занимается недостаточно тщательно, она рискует получить штрафы.
Шесть шагов
Мы выделяем шесть этапов обработки текстовой информации, которые сегодня способна выполнить система на основе технологий искусственного интеллекта.Первый этап – это распознавание текстов из различных источников
В организацию поступают документы в форматах DocX, ODT, RTF, Pages, PDF и других. Основным видом считается PDF, который может содержать текстовый слой или быть полностью графическим (например, скан). Также нередко встречаются изображения или сканы документов (PNG, JPG, TIFF), где текстового слоя нет в принципе.
Для преобразования графических данных в текст используются технологии Optical Character Recognition (OCR). Современные решения, применяемые в платформах Intelligent Document Processing (IDP), не только распознают текст, но и восстанавливают структуру документа, выделяя таблицы, списки, изображения и подписи.
Второй этап – синтаксический анализ или построение грамматической структуры текста
На этой стадии система анализирует грамматическую структуру текста, определяя связи между словами (подлежащее, сказуемое, дополнение и т. д.), и выстраивает синтаксическую модель. Такой анализ обеспечивает понимание структуры текста, что необходимо для дальнейшего смыслового и онтологического анализа. Если текст плохо структурирован (например, содержит несвязные фрагменты), предварительно проводится его разметка и упорядочивание.
Третий этап – семантический (смысловой) анализ
Его цель – интерпретация значений слов и выражений в контексте, определение темы текста и выявление смысловых связей между понятиями. Семантический анализ позволяет разрешать неоднозначности, например, различать смысл многозначных слов, а также формировать векторные представления текста для более глубокого исследования. Результаты работы семантического анализа используются для классификации, кластеризации и построения онтологических графов.
Четвертый этап – классификация и кластеризация текста
Система выделяет ключевые слова и признаки, по которым текст относится к определенной категории или классу. Например, документ может быть связан с конкретным подразделением компании, типом обращения или видом задачи. Кластеризация позволяет группировать схожие тексты без предварительного указания их категорий, что особенно полезно при работе с большими массивами данных.
Пятый этап – онтологический анализ
Система выявляет сущности, упомянутые в тексте (например, имена, компании, локации), и устанавливает связи между ними. Этот анализ позволяет формировать онтологические графы, объединяющие понятия и их отношения в единую структуру знаний. Онтологический анализ помогает системе уточнять смысл текста, интегрировать его с внешними базами данных и использовать полученные данные для интеллектуального поиска, автоматических рекомендаций или принятия решений.
Шестой этап – стилистический анализ текста и проверка оформления
На заключительном этапе система анализирует языковые и визуальные особенности текста. Оценивается тональность, уровень формальности, и выявляются стилистические ошибки. Также проводится проверка оформления документа: унификация шрифтов, межстрочных интервалов, заголовков и других элементов форматирования. Тексты с канцеляризмами, орфографическими ошибками и несоответствиями в оформлении преобразуются в более читабельный и профессиональный вид.
Возможности ИИ в управлении знаниями
После тщательной предварительной обработки текстовый документ (или документ другого формата, снабженный текстовым слоем) становится частью единой цифровой среды, предназначенной для формирования системы знаний и интеллектуального управления данными. Их базовые сценарии универсальны и могут быть применены в каждой организации.Интеллектуальный поиск включает в себя не только классический поиск слов или их сочетаний по всей базе документов, но и семантический
Задав системе запрос на естественном языке, мы получаем ответ за доли секунды. При этом поддерживаются такие функции, как автоматическая корректировка ошибок или опечаток в запросе, персонализация результатов выдачи, сохранение истории запросов, мультиязычный поиск, поддержка возможности создать новый уточняющий запрос на базе уже сформированного ответа.
Диалоговый агент – это возможность вести диалог с виртуальным сотрудником на естественном языке в режиме чат-бота. Система готова ответить на вопросы, опираясь на данные корпоративной базы знаний, предоставить справку по регламентам и нормативно-правовым актам, поделиться другой важной информацией, которую сможет найти.
Сервис проверки документов и обращений – поиск несоответствий, противоречий и ошибок
Это важная часть проверки договоров, закупочной документации, внутренней канцелярии компании и прочего. Например, в проекте для одного из министерств РФ мы разработали систему автоматизированного контроля соответствия законопроектов, нормативных правовых актов и государственной регистрации ведомственных нормативно-правовых актов, которые инициируются в ведомстве, установленным стандартам.
Сегодня в системе реализовано более 90 правил проверки соответствующих документов, ее точность и полнота составляет 80%
При этом качество издаваемых государственных документов растет так же, как и скорость их подготовки.
Еще один пример реализации данного сценария – помощь подразделению информационной безопасности, куда приходят заявки на доступ новых сотрудников к определенным ИС и другим корпоративным ресурсам. Система изучает внутренние регламенты и в автоматизированном режиме открывает доступ сотруднику к нужным сервисам согласно его должности или функции.
Кроме того, в любую организацию каждый день приходят сотни обращений по разным каналам. Система управления знаниями помогает анализировать деловую переписку и отправлять необходимую информацию релевантному человеку в кратчайшие сроки.
ГенИИ, или сервисы для генерации контента для самых разных задач. Например, после качественной классификации входящих документов на базе текстовой аналитики система может не только маршрутизировать корреспонденцию, но и с помощью генеративного ИИ автоматически подготовить ответ на типовой запрос, если он присутствует в документе.
Генерация контента важна при формировании тестовых заданий
Во многих компаниях при выходе сложных внутренних регламентов, политик или инструкций обязательно проводится тренинг с последующим внутренним тестированием. Такие тесты ранее разрабатывались вручную, но теперь эту задачу можно переложить на генеративный ИИ. Причем система может сформировать тестовые задания в автоматическом режиме сразу после публикации документа, генерируя подходящие вопросы с учетом должности проверяемого.
Система управления знаниями в организации начинается с унификации обработки текстовой информации, которая поступает в любых форматах и из разных источников. Затем создается единое контролируемое цифровое пространство. Искусственный интеллект в этом процессе – отличный инструмент для цифровой трансформации, так как он облегчает доступ к информации и помогает эффективно ее обрабатывать.
новости и публикации
На связи с вами —
по любому вопросу
по любому вопросу