Интеллектуальный код от Code Llama — гениально или опасно?

Компания Meta продолжает активно развиваться в сфере генеративного искусственного интеллекта. Последним нововведением стало представление открытой системы "Code Llama", способной генерировать и объяснять код на естественном языке — конкретно, на английском.

"Code Llama" функционирует в ряде языков программирования: Python, C++, Java, PHP, Typescript, C# и Bash, напоминая таким образом другие популярные инструменты, такие как GitHub Copilot и Amazon CodeWhisperer.

В своем блоге Meta подчеркнула: "Доступные всем модели кодирования, такие как Code Llama, позволяют оценить их возможности, определить проблемы и устранить уязвимости".

"Code Llama" основан на модели генерации текста Llama 2, которую Meta ранее представила в открытом доступе. Для обучения Code Llama был использован тот же набор данных, что и для Llama 2, с акцентом на обучающих данных, включающих код.

Контекст: параметры — это части модели, изученные из исторических данных обучения, в то время как токены представляют сырой текст. Например, слово "fantastic" будет разбито на токены: "fan", "tas", "tic".

Интересно отметить, что некоторые модели Code Llama могут вставлять код в существующий код, принимая до 100 000 токенов кода в качестве входных данных.

Однако инструменты генерации кода не лишены рисков. Как показали исследования, инженеры, использующие инструменты ИИ, более склонны к созданию уязвимостей в своих приложениях.

В своем блоге Meta признала, что "Code Llama" может генерировать "неточные" или "оспоримые" ответы на запросы. Тем не менее, несмотря на риски, компания ставит минимальные ограничения на использование Code Llama, требуя лишь согласия на неприменение модели в злонамеренных целях.

Источник: securitylab