Новый трюк использует искусственный интеллект для разблокировки моделей искусственного интеллекта, включая GPT-4

Новый способ использует искусственный интеллект для открытия доступа к моделям искусственного интеллекта, включая GPT-4

Когда совет директоров OpenAI внезапно уволил генерального директора компании в прошлом месяце, это вызвало спекуляции о том, что участники совета были потрясены неистовым темпом прогресса в искусственном интеллекте и возможными рисками быстрой коммерциализации технологии. Robust Intelligence, стартап, основанный в 2020 году для разработки способов защиты систем искусственного интеллекта от атак, говорит, что некоторые существующие риски требуют большего внимания.

Совместно с исследователями из Йельского университета, Robust Intelligence разработала систематический способ исследования больших языковых моделей (LLM), включая ценный актив GPT-4 от OpenAI, с использованием “адверсарных” моделей искусственного интеллекта для обнаружения “тюремных” подсказок, запускающих неправильное поведение языковых моделей.

В то время, когда в OpenAI разворачивалась драма, исследователи предупредили компанию о уязвимости. Они говорят, что до сих пор не получили ответа.

“Это говорит о том, что есть систематическая проблема безопасности, которая просто не решается и не осматривается”, – говорит Ярон Сингер, генеральный директор Robust Intelligence и профессор компьютерных наук Гарвардского университета. “То, что мы обнаружили здесь, это систематический подход к нападению на любую большую языковую модель”.

Представитель OpenAI Нико Феликс говорит, что компания “благодарна” исследователям за предоставление результатов их исследований. “Мы всегда работаем над повышением безопасности и устойчивости наших моделей против адверсарных атак, сохраняя их полезность и производительность”, – говорит Феликс.

Новый тюремный метод включает использование дополнительных систем искусственного интеллекта для генерации и оценки подсказок, когда система пытается выполнить тюремный запрос к API. Этот трюк является последним в серии атак, которые, кажется, подчеркивают фундаментальные слабости больших языковых моделей и предполагают, что существующие методы их защиты значительно не справляются.

“Я определенно беспокоюсь о том, насколько легко мы можем взломать такие модели”, – говорит Зико Колтер, профессор Карнеги-Меллонского университета, чья группа исследований показала уязвимость больших языковых моделей в августе.

Колтер говорит, что некоторые модели теперь имеют средства защиты от некоторых атак, но добавляет, что уязвимости присущи именно способу работы этих моделей и, следовательно, сложно защититься от них. “Я думаю, нам нужно понять, что такие проблемы присущи многим LLM и у нас нет ясного и хорошо установленного способа предотвратить их”, – говорит Колтер.

Большие языковые модели недавно стали мощной и трансформационной новой технологией. Их потенциал стал заголовочными новостями, когда обычные люди были ошеломлены возможностями ChatGPT от OpenAI, выпущенного всего лишь год назад.

В месяцах, следующих за выпуском ChatGPT, открытие новых методов взлома стало популярным занятием для шаловливых пользователей, а также для тех, кто интересуется безопасностью и надежностью систем искусственного интеллекта. Но сейчас десятки стартапов строят прототипы и полноценные продукты на основе API больших языковых моделей. На первой в своей истории конференции для разработчиков в ноябре OpenAI заявила, что свыше 2 миллионов разработчиков сейчас используют их API.

Эти модели просто предсказывают текст, который должен следовать после данного ввода, но они обучены на огромных объемах текста из сети Интернета и других источников, с использованием огромного количества компьютерных чипов в течение многих недель или даже месяцев. С достаточным количеством данных и обучением языковые модели проявляют савантоподобные навыки предсказания, отвечая на широкий спектр ввода с последовательной и соответствующей информацией.

Модели также проявляют предубеждения, выученные из обучающих данных, и склонны выдумывать информацию, когда ответ на запрос меньше очевиден. Без защиты они могут давать советы людям о том, как получить наркотики или изготовить бомбы. Чтобы контролировать модели, компании, стоящие за ними, используют ту же методику, с помощью которой делают ответы более последовательными и точными. Это включает оценку ответов модели людьми и использование этой обратной связи для настройки модели, чтобы она в меньшей степени совершала неправильные действия.

Robust Intelligence предоставила ENBLE несколько возможных побегов, обходящих такие средства защиты. Не все из них работали с ChatGPT, чат-ботом, построенным на основе GPT-4, но несколько из них, включая один для создания фишинговых сообщений, и другой для предложения идей, помогающих злонамеренным лицам оставаться незамеченными в государственной компьютерной сети, работали.

Метод, разработанный исследовательской группой под руководством Эрика Вонга, доцента Университета Пенсильвании, является похожим. Отличается он от метода Robust Intelligence и его команды дополнительными улучшениями, позволяющими системе генерировать побеги с вдвое меньшим количеством попыток.

Брендан Долан-Гавитт, старший преподаватель из Нью-Йоркского университета, изучающий компьютерную безопасность и машинное обучение, говорит, что новая техника, представленная Robust Intelligence, показывает, что человеческая настройка не является надежным способом защиты моделей от атак.

Долан-Гавитт говорит, что компании, создающие системы на основе больших языковых моделей, таких как GPT-4, должны использовать дополнительные меры защиты. “Нам нужно убедиться, что мы создаем системы, использующие LLM, таким образом, чтобы побеги не позволяли злонамеренным пользователям получить доступ к тем вещам, к которым не должны”, – говорит он.