Как хитрят наёмные работники краудсорсинговых сервисов и почему это плохо для развития ИИ?
Большинство людей воспринимает работу чат-ботов и нейросетей на основе ИИ практически за магию. Многие из тех, кто регулярно взаимодействует с искусственным интеллектом, наверняка слышали, что для функционирования подобных проектов требуется их долгое обучение на общедоступных данных, приправленное огромными вычислительными мощностями.
Однако мало кто знает, что для непрерывного развития нейросетей в рамках используемой LLM-модели в них понемногу вводятся всё новые и новые данные, призванные существенно улучшить их работу. Но вот о чём действительно почти никто не задумывается — а откуда вообще берутся эти данные?
Большинство рутинной работы по преобразованию данных для обучения нейросетей выполняют люди. Причём, как бы престижно и высокооплачиваемо не звучал со стороны сам факт взаимодействия с нейросетями, по факту наёмные работники в этой сфере получают сущие копейки за свою монотонную работу.
Краудсорсинговые сервисы по типу Amazon Mechanical Turk предлагают работодателям объединять сотни и тысячи человеческих разумов для быстрого и эффективного решения задач, с которыми ни одна машина справиться не в состоянии. Или, как в нашем случае, для внесения в нейросети нового набора данных и её дальнейшего развития.
Исследователи Федеральной политехнической школы Лозанны в Швейцарии (EPFL) решили провести интересный эксперимент. Они наняли на одной из популярных краудсорсинговых площадок 44 человека для обобщения тезисов 16 медицинских исследовательских работ. Цель задания состояла в том, чтобы потом внести эти данные в нейросеть, обучив её новым вариациям и способам вычленения основной идеи подобной литературы.
Параллельно с этим учёные подготовили специальный классификатор, чтобы определить, сами ли работники будут выполнять поставленную задачу или схитрят, прибегнув к помощи нейросетей, чтобы существенно увеличить скорость выполнения задачи. Помимо анализа полученных текстов исследователи также фиксировали нажатия клавиш работников, чтобы наверняка определить факт мошенничества.
«Мы разработали очень специфическую методологию, которая очень хорошо работала для обнаружения синтетического текста в нашем сценарии. В то время как традиционные методы пытаются обнаружить синтетический текст "в любом контексте", наш подход сосредоточен на обнаружении синтетического текста в нашем конкретном сценарии», — заявил Мануэль Рибейро, соавтор исследования и аспирант EPFL.
Как выяснилось, от 33% до 46% полученных текстовых отрывков было сгенерировано нейросетью, что, конечно, не катастрофа, но демонстрирует определённую негативную тенденцию. Если большие языковые модели по типу той же GPT-4 от OpenAI обучать на своих же данных, в будущем это может существенно снизить качество их работы или замедлить их развитие.
Такие крупные компании, как OpenAI, держат в строжайшем секрете, как именно они обучают свои языковые модели, и вряд ли они вообще используют для этого Mechanical Turk. Однако множество других компаний поменьше вполне могут полагаться на труд наёмных работников для обучения своих ИИ-моделей. И если сразу чётко не прописать техзадание нанятым работникам, а также не настроить инструменты для контроля их работы (на одном доверии тут далеко не уедешь), ценность полученных данных будет крайне сомнительной.
«Ответы, генерируемые сегодняшними моделями ИИ, обычно довольно безвкусны или тривиальны. Они не отражают сложность и разнообразие человеческого творчества. Иногда то, что мы хотим изучить с помощью краудсорсинговых данных, — это именно то, в чем люди несовершенны», — объяснил Роберт Уэст, соавтор статьи и доцент школы компьютерных наук и коммуникаций EPFL.
Поскольку ИИ продолжает совершенствоваться, вполне вероятно, что работа с краудсорсингом вскоре изменится. Исследователи из EPFL предполагают, что большие языковые модели в будущем могут заменить некоторых работников при выполнении конкретных задач, однако, как это ни парадоксально, человеческие данные в скором времени могут стать гораздо более ценными, чем когда-либо.
Источник: securitylab