Платформа для обучения взлому нейросетей сама стала угрозой конфиденциальности.
Швейцарская компания Lakera AI, разработчик образовательной платформы Gandalf , предназначенной для обучения рискам атак типа «prompt injection» в больших языковых моделях (Large Language Model, LLM), недавно устранила уязвимость в своей системе. Эксперты по безопасности обнаружили публично доступную панель аналитики, которая предоставляла информацию о запросах, отправленных игроками, и связанных с ними метриках.
Gandalf была запущена в мае и представляет собой веб-форму, которая позволяет пользователям в игровой форме попытаться обмануть базовую LLM, используя API от OpenAI. Целью является выявление паролей в игре путем последовательного выполнения все более сложных задач.
Панель аналитики была обнаружена австралийской консалтинговой компанией по безопасности Dvuln. По данным Dvuln, сервер показывал более 18 миллионов запросов от пользователей, 4 миллиона попыток угадать пароль, а также другие игровые метрики.
Отмечается, что данные не содержат персональной информации и не являются конфиденциальными. Однако некоторые игроки вводили в игру свои электронные адреса, которые стали доступны через панель.
В Dvuln подчеркнули, что, Gandalf задача является симуляцией, созданной для иллюстрации рисков, связанных с LLM, отсутствие адекватных мер безопасности при хранении данных заслуживает внимания.
Инцидент ставит под сомнение не только безопасность Gandalf, но и вопросы конфиденциальности и безопасности, связанные с использованием LLM-моделей в целом. Ситуация подчеркивает необходимость строгих протоколов безопасности, даже в системах, созданных для образовательных или демонстрационных целей.
Источник: securitylab