Нам нужно серьёзно поговорить: уже больше 100 дней общедоступна схема активации "режима бога" в чат-бот

Как несколько простых слов могут заставить чат-бота делать всё, что вы захотите.

Более 100 дней в сети распространяются способы обхода этических ограничений чат-ботов, что позволяет использовать их для преступных действий.

Чат-боты обычно имеют набор правил, заданных разработчиками, чтобы предотвратить злоупотребление, например, написание мошеннических писем. Однако из-за разговорной природы технологий чат-бота возможно убедить проигнорировать ограничения с помощью определенных запросов, обычно называемых взломом или джейлбрейком (jailbreak).

Схема взлома чат-ботов

Исследователи из Центра информационной безопасности CISPA Helmholtz в Германии проверили 6387 запросов, 666 из которых были разработаны для взлома чат-ботов. Тестирование проводилось на 5 различных чат-ботах: двух версиях ChatGPT, а также ChatGLM, Dolly и Vicuna.

Результаты оказались тревожными: в среднем успешность взлома составляла 69%. Более того, наиболее эффективный метод составил 99,9% успеха. Некоторые из методов уже более 100 дней находятся в открытом доступе на платформах вроде Reddit и Discord.

Наиболее успешно удавалось заставить чат-ботов заниматься политическим лоббированием, созданием порнографии или юридическим консультированием, что запрещено создателями чат-ботов.

Особое внимание исследователи уделили результатам джейлбрейка чат-бота Dolly, разработанного калифорнийской IT-компанией Databricks. Средний показатель успешности взлома модели составил поразительные 89%, что значительно превышает средний показатель.

Алан Вудворд, эксперт в области кибербезопасности из Университета Суррея (Великобритания), подчеркивает: «Результаты теста показывают, что настало время серьезно задуматься о безопасности подобных инструментов. Ведь с ростом их сложности и применения растет и риск злоупотреблений.

Авторы эксперимента считают, что одним из возможных решений может стать разработка специализированного классификатора, который будет определять «токсичные» или «взламывающие» запросы до их обработки чат-ботом. Однако команда экспертов признает, что это лишь временное решение: злоумышленники всегда будут искать новые пути обхода систем безопасности.

Компания OpenAI отказалась комментировать данную ситуацию. Остальные организации не успели предоставить свои комментарии к моменту публикации.

Источник: securitylab

Нам нужно серьёзно поговорить: уже больше 100 дней общедоступна схема активации "режима бога" в чат-бот

Как защитить свои почтовые сервера?

Шифровальщики как масштабная угроза

Современные аспекты кибербезопасности

BEC атаки

Хакерская жатва в Сингапуре: даркнет ломится от обилия похищенных данн

Утечка Sphero: робототехника стала источником утечки данн

Нам нужно серьёзно поговорить: уже больше 100 дней общедоступна схема активации "режима бога" в чат-бот

Нам нужно серьёзно поговорить: уже больше 100 дней общедоступна схема активации "режима бога" в чат-бот

Кто будет управлять интернетом завтра? ООН меняет модель управления интернет

Python в Excel: революция в анализе данных начинается сегод