Об интеллекте LLM можно спорить, но мир разработки ПО они способны перевернуть

Илья Тихонов

владелец продукта Polymatica ML

Источник BIS Journal

Классическое машинное обучение работает на базе примеров, но требует предварительной разметки. Собственно, генеративный ИИ GenAI ничем от этого не отличается, по уровню интеллекта он такой же, как и условная логистическая регрессия. Она является популярным алгоритмом построения моделей бинарной классификации и предсказания вероятности возникновения интересующего события с помощью логистической функции.

Просто если логистическая регрессия — это набор входных данных и весов, которые друг на друга попарно перемножили и сложили результат, а потом ещё провели через одну функцию активации, то в GenAI таких преобразований будет намного больше. Соответственно, это всё ещё обучение с учителем, просто «учителем» здесь выступают сами тексты. То есть мы видим простой механизм действий модели: она предсказывает следующий токен, который может быть словом, или частью слова, или даже буквой, исходя из контекста. Поэтому логичен вопрос: являются ли эти модели, которые просто предсказывают условную вероятность появления следующего слова, интеллектом? Или этот механизм всего-навсего «статистический попугай»? Утвердительно ответим на второй вопрос: да, мы же действительно так его и тренируем.

О болезнях «статистических попугаев»

По сути, все LLM — это просто авторегрессионные генераторы текста, которые предсказывают вероятность следующего токена. Предсказательный характер результата обусловливает «патологию» — галлюцинации модели. Это горячая тема сегодняшних научных исследований: как и почему модели галлюцинируют. Уже понятно, что недостаточно просто увеличить объём выборки: это помогает, но не решает проблему полностью.

Можно, например, построить метамодель, которая обращает внимание на промежуточные представления, и сделать классификатор, отвечающий на вопрос, будет ли модель галлюцинировать или нет. Но оказывается, что, если модель не знает ответа, она попытается «соврать», то есть вместо того, чтобы честно сказать «не знаю», постарается сгенерировать связанный текст. Есть отдельные исследования, которые изучают, насколько сильно модель может галлюцинировать, — так сказать, валидация на саму этичность: будет ли модель специально врать, чтобы достичь цели человека.

Наряду с построением метамодели текущая практика предполагает наращивание датасетов «вопрос — ответ» от экспертов в разных направлениях, а не типичных разметчиков, что позитивно скажется на решении проблемы галлюцинаций. Сегодня, когда LLM функционирует как авторегрессионный генератор, обучение происходит следующим образом. Сначала модель учится предсказывать следующее слово на множестве текстов со всего интернета — она начинает понимать структуру текста и контекст использования слов, затем идёт дообучение (supervised fine-tune) на датасетах формата «вопрос — ответ». И уже на этом этапе мы видим, что модели получают способности к ведению диалога. Если раньше они работали как «умный Т9», то теперь уже могут вести осмысленный с точки зрения человека диалог. Затем идёт этап RLHF (Reinforcement Learning from Human Feedback) — дообучение с подкреплением на основе отзывов людей. Представьте модели «писателя» и «критика». «Писатель» может сгенерировать множество ответов по разным вопросам, люди-разметчики выберут из них лучшие. «Критик» же обучится на этих отзывах и начнёт понимать, где условно «хороший» ответ, а где «плохой». Теперь мы дообучим модель «писателя» так, чтобы модель «критик» была удовлетворена как можно чаще.

А есть ли у модели «интеллект»?

На самом деле всё зависит от определения, которого мы придерживаемся. С технопессимистического взгляда, GenAI вовсе не интеллект в человеческом понимании, а ещё один способ описания предметной области. С технооптимистического взгляда, генеративные модели уже сегодня способны решать весьма абстрактные задачи, отвечать на конкретные вопросы не хуже специалистов в своей предметной области. И это уже даёт основания называть происходящее «интеллектом». А учитывая масштаб, вероятно, в ближайшие несколько лет произойдёт дальнейшее увеличение интеллектуальных способностей таких моделей.

Стоит вспомнить, как примерно два года назад стали быстро набирать популярность плагины: по сути, это просто вызываемый программный код, с которым может взаимодействовать языковая модель. Скажем, если набрать в описании модели слово «калькулятор» в квадратных скобочках, то будет инициирован вызов программного интерфейса, в который модель подставит те или иные значения в соответствующем формате и получит результат. Этот простой пример демонстрирует, что такой функциональный API позволяет вызывать типовые интерфейсы, например интерфейс проектирования ER-диаграмм, чтобы создать схему базы данных. И специалисты уже смогут взаимодействовать с такими данными. Поэтому будет продолжаться усиление синергии между генеративными моделями и внешними функциями, по сути, программным отображением графического интерфейса веб- и настольных приложений, с которыми мы уже все привыкли работать.

В целом одним из перспективных направлений развития LLM следует считать создание малых языковых моделей (Language Model, LM), ориентированных на решение микроскопических задач в конкретной нишевой отрасли, например генерации математических доказательств. Они реализуются в виде ИИ-агентов и решают узкоспециализированные задачи. Яркий пример — StarCoder. Это маленькая языковая модель — около трёх миллиардов параметров. Вроде бы очень много? На самом деле все они запускаются на обычном компьютере. Модель генерирует программный код и специально обучена только для того, чтобы отвечать на вопросы и писать тесты по коду, генерировать сам код и документацию к нему в основном на Python, но в коробке есть и другие языки. Вы можете внедрить StarCoder в свой VS-код — помощника, который будет работать на том же высоком уровне качества, что и большие по размеру языковые модели.

Об интеллекте LLM можно спорить, но мир разработки ПО они способны перевернуть

Скорее всего, очень многие задачи будут автоматизироваться моделями. Уже сейчас любую разработку ПО можно декомпозировать на набор понятных задач. Разберём ситуацию на живом примере — работе менеджера проекта. Сегодня он открывает трекер задач (условный Jira) на своём рабочем месте, заводит декомпозированные задачи; далее уже разработчик их фиксит — добавляет или исправляет конкретные куски кода, потом всё это тестируется. Каждой отдельной задачей проверки, воспроизведения, исправления, документирования, описания занимается отдельный специалист. Но можно представить ситуацию, когда роль каждого такого специалиста будет декомпозирована на более простые этапы, которые уже будут выполняться моделями.

Да, сегодня интеллектуальных способностей модели хватает только для подготовки текстовой документации, их недостаточно для полной замены разработчика. Но мы ожидаем появления таких агентов через пару лет. Иными словами, тестировщик будет работать вместе с языковой моделью, которая будет помогать ему тестировать код. Но утверждение, что профессия разработчика исчезнет, не имеет под собой оснований. В лучшем случае LLM сможет рассчитывать на уровень Junior Data Scientist.

GenAI-модель — это не финальная модель, которая способна самостоятельно выполнить работу специалиста. Это просто хороший инструмент, помогающий ему в рутинных задачах