Любое сообщение, попавшее в Интернет, может быть использовано нейросетью для ответа другому человеку.
ChatGPT захватил мир. В течение двух месяцев после его запуска он достиг 100 миллионов активных пользователей, что делает его самым быстрорастущим потребительским сервисом всех времён. Пользователей привлекают расширенные возможности этого инструмента. А то, какие ответы выдаёт ChatGPT, сильно удивляет непосвящённых в тему больших языковых моделей пользователей.
Гораздо менее обсуждаемым аспектом работы нейросети является риск конфиденциальности, который ChatGPT представляет для каждого человека. И это касается любых чат-ботов, использующих тот же принцип работы. Буквально вчера Google представила свой собственный разговорный ИИ под названием Bard, и другие техногиганты наверняка вскоре последуют за ним.
Большие языковые модели требуют огромных объёмов данных для функционирования и развития. Чем больше данных есть в их распоряжении, тем лучше они обнаруживают закономерности, предвидят возможные варианты развития диалога и генерируют правдоподобный текст.
OpenAI, компания, стоящая за ChatGPT, предоставила инструменту около 300 миллиардов слов из открытого доступа в Интернете. Книги, статьи, веб-сайты, посты в социальных сетях — всё, до чего нейросеть смогла дотянуться, она впитала в себя для улучшения своей продуктивности.
Никого из пользователей интернета не спросили, может ли OpenAI использовать эти данные. На лицо явное нарушение конфиденциальности. Особенно когда данные, попавшие в сеть, конфиденциальны и могут быть использованы во вред.
Даже когда данные общедоступны, их использование нейросетью может нарушить так называемую «текстовую целостность». Это фундаментальный принцип в юридических дискуссиях о конфиденциальности. Он предполагает, что информация отдельных лиц не должна раскрываться вне контекста, в котором она была первоначально создана.
Кроме того, OpenAI не предлагает отдельным лицам никаких процедур для проверки того, хранит ли компания их личную информацию. Или для запроса её удаления. Это «право быть забытым» особенно важно в тех случаях, когда информация неточна или вводит в заблуждение. Впрочем, это вполне обычное явление для ChatGPT.
Очищенные данные, на которых был обучен ChatGPT, могут быть защищены авторским правом. Например, если попросить нейросеть написать текст какой-либо книги, которая присутствует в открытом доступе только нелегально, нейросеть реально может выдать этот текст. Несмотря на то, что книга платная и официально доступна только в интернет-магазинах.
То же самое касается и другого типа информации. OpenAI банально не платила за данные, которые извлекла её нейросеть из Интернета. Частные лица, владельцы веб-сайтов и компании, которые их создали — не получают компенсаций за эту информацию. Особенно примечателен этот факт вкупе с тем, что недавно компания OpenAI была оценена в 29 миллиардов долларов. Вдвое больше её стоимости в 2021 году.
OpenAI также недавно анонсировала ChatGPT Plus, платный тарифный план, который предложит клиентам стабильный доступ к инструменту, быстрое время отклика и приоритетный доступ к новым функциям. Этот план обеспечит ожидаемый годовой доход компании в размере 1 миллиарда долларов. Все это было бы невозможно без данных простых пользователей интернета, собранных и используемых без разрешения.
Ещё один риск конфиденциальности связан с данными, которые пользователи ChatGPT предоставляют боту в процессе общения с ним. Ведь чтобы задать вопрос, нужно дать нейросети какую-либо входную информацию. И зачастую, может и непреднамеренно, эта информация может оказаться конфиденциальной. Например, адвокат может предложить нейросети просмотреть проект соглашения о разводе, или программист может попросить её проверить фрагмент кода. Все эти данные ChatGPT может использовать для дальнейшего обучения и включать в ответы на запросы других людей. Иными словами, все «грязные» секреты могут быть раскрыты нейросетью любому человеку, который достаточно точно сформулирует запрос.
Помимо этого, OpenAI собирает широкий спектр другой пользовательской информации: IP-адреса пользователей; тип браузера, его настройки; данные о взаимодействии пользователей с сайтом; тип контента, с которым они взаимодействуют; функции, которые они используют; действия, которые предпринимают. Вся эта информация совершенно свободно может быть собрана OpenAI в соответствии с политикой конфиденциальности компании.
Некоторые эксперты считают, что ChatGPT — это переломный момент для ИИ. Несмотря на его потенциальные преимущества, нужно помнить, что OpenAI — частная коммерческая компания, чьи интересы и коммерческие императивы необязательно совпадают с нормами и ценностями, принятыми большинством.
Риски конфиденциальности, связанные с ChatGPT, должны звучать как предупреждение. Количество технологий с применением искусственного интеллекта и нейросетей растёт с каждый днём, поэтому пользователи должны быть предельно осторожны в отношении того, какой информацией делятся в Интернете.
Источник: securitylab