Данные для обучения ИИ заканчиваются

Илья Тихонов

владелец продукта Polymatica ML

Источник Российская газета

Разработчики искусственного интеллекта (ИИ) столкнулись с нехваткой качественного материала для обучения моделей. В ближайшие два года такие данные могут просто "закончиться", что приведет к замедлению развития этих технологий.

Нейросети, собирая данные - к примеру, научные статьи или новостные заметки - из сети, разбивают их на части и на основе этого учатся отвечать, как человек. Чем больше они "потребляют" такой информации, тем выше их эффективность. Однако, как заявили ученые и руководители компаний-разработчиков, большая часть контента в интернете содержит бессвязный текст или вовсе не может добавить новой информации к той, которая уже есть у ИИ, передает The Wall Street Journal.

Стремясь "раздобыть" новые данные, компании могут забыть об этике и корпоративной политике. В частности, OpenAI создала систему распознавания речи Whisper, которая расшифровывает аудиозаписи из видео на YouTube для обучения ИИ. Однако это противоречит правилам видеохостинга и потенциально нарушает права создателей роликов.

"Единственный практический способ существования таких инструментов - обучение на огромных массивах информации без разрешения ее создателей. Объем необходимых данных настолько велик, что не поможет даже коллективное лицензирование", - передает слова представителя венчурной компании Andreessen Horowitz Сая Дамле The New York Times.

Некоторые эксперты для снижения зависимости от авторских произведений, которые защищены законом, предлагают обучать ИИ на материалах других языковых моделей, поскольку эти системы способны создавать вполне человекоподобные тексты, но здесь есть проблема: некоторые нейросети попадают в цикл обработки ошибочных данных, что только нарушит процесс обучения.

Нехватка данных действительно может привести к тому, что разработчики станут активнее использовать информацию без разрешения ее создателей. В результате этого может произойти коллапс, уверен генеральный директор информационно-аналитического агентства TelecomDaily Денис Кусков.

"Я считаю, что это крайне негативно может оцениваться. Я категорически против. Привести это может к большим проблемам: к распространению недостоверной информации или, наоборот, использованию ее в своих целях и т.д.", - подчеркнул он.

По мнению владельца продукта Polymatica ML в компании SL Soft Ильи Тихонова, использовать открытые датасеты станет более проблематично. "Это, правда, актуально только в случае, если последуют юридические прецеденты, где суд заставит удалить модель или датасет", - уточнил эксперт.