БОСС
HR-системы
ROBIN
Платформа
Цитрос
Автоматизация ЭДО
Polymatica
Инструменты аналитики
Преферентум
Интеллектуальная обработка текста
Citeck
Low-Code BPM-платформа
  • avatar

    Николай Тржаскал

    Николай Тржаскал

    директор по продуктам SL Soft AI

  • Источник Tadviser

    Технологии интеллектуальной обработки документов (Intelligent Document Processing, IDP) давно и успешно присутствуют на рынке. Первые отечественные программы оптического распознавания текста (OCR, optical character recognition) получили широкое распространение в середине девяностых годов прошлого века.

    С тех пор они прочно занимают место во многих офисных и домашних компьютерах, а технологии, которые ими используются, совершенствуются и модернизируются. Основными при этом остаются OCR и CV (computer vision; компьютерное зрение). Эксперты говорят о том, что и вездесущий искусственный интеллект принимает участие в технологическом развитии этого сегмента программного обеспечения.

    Среди ближайших перспектив в сфере интеллектуальной обработки данных отраслевые эксперты видят программы, основанные на использовании больших языковых моделей (LLM) на основе ИИ, обработку естественных языков (NLP; natural language processing) и машинное обучение (ML) в его модификациях: AutoML, self-supervised learning.

    Технологические перспективы

    Николай Тржаскал, директор по продуктам «Преферентум» компании SL Soft, обратил внимание на рост объема данных и числа документов, требующих обработки и анализа:

    «Большую помощь оказывают большие мультимодальные модели (LMM), которые имеют возможность работать как с текстом, так и с изображениями. С ростом объема анализируемой информации только обработки документа становится недостаточно. Полученные знания необходимо структурировать и сделать доступными для поиска в будущем. Для этого используются технологии векторизации текстов и семантического и векторного поиска. Для последнего необходимы специальные базы данных. Технологии, находящиеся сегодня на передовом крае, вскоре станут такой же частью стандартного инструментария разработчика, как классические реляционные базы данных. В целом, все, что касается превращения информации в доступные знания, будет в ближайшие годы развиваться семимильными шагами, ведь если в 2010 году количество данных в мире оценивалось в 2 зетабайта, то в 2024 г. их стало уже около 145 Збайт, а только за 2025 год добавится еще 40. При этом 80% этих данных – неструктурированные, то есть их восприятие и запоминание человеческим мозгом практически невозможно без предварительной обработки и обеспечения контекстных механизмов поиска».

    Целевая аудитория IDP

    Николай Тржаскал из компании SL Soft придерживается точки зрения, что драйвером развития в сегменте являются госсструктуры и крупные корпорации. В то же время он указал на объективные сложности внедрения интеллектуальной обработки документов:

    «Она востребована везде, не только бизнесом, но и частными пользователями. К сожалению, объективные и субъективные факторы мешают быстрому продвижению систем во всех направлениях. Из объективных стоит выделить высокую стоимость внедрения и владения решениями, поскольку за пределами классического OCR пока не начал формироваться рынок готовых облачных или десктопных продуктов, способных полностью удовлетворить малый и средний бизнес, равно как продвинутых частных пользователей. Госсектор оказывается в тисках ограниченных бюджетов и невозможности заключения контрактов с бюджетированием на несколько лет вперед. Соответственно, развитие систем происходит «урывками» – каждый год по чуть-чуть, что не позволяет простроить долгосрочные программы модернизации, подкрепленные контрактными обязательствами. Поэтому на текущий момент основными драйверами в интеллектуальной обработке документов становятся предприятия и крупный бизнес, для которых это не просто модное веяние и часть национального проекта, а вполне практический вопрос экономии средств, повышения эффективности и снижения рисков ошибок, влекущих за собой репутационные и финансовые потери».

    Полную версию обзора читайте на сайте.
    Технологические сервисы Преферентум

    Извлечение формализованных данных из неструктури- рованной информации

    image
    новости и публикации
    gradient
    На связи с вами — 
    по любому вопросу