Взлом ИИ? Вот 4 распространенных атаки на искусственный интеллект, согласно команде безопасности Google

4 распространенных атаки на ИИ согласно команде Google

Каждый раз, когда новая технология становится популярной, можно ожидать, что найдется кто-то, кто будет пытаться взломать ее. Искусственный интеллект, в частности, генеративный ИИ, не является исключением. Чтобы преодолеть этот вызов, Google создала «команду красных хакеров» примерно полтора года назад, чтобы исследовать, как хакеры могут специально атаковать системы искусственного интеллекта.

«Для реальных противников, нацеленных на системы машинного обучения, доступно не так много информации о угрозах», – рассказал глава команды красных хакеров Google Дэниел Фабиан в интервью The Register. Его команда уже выявила самые большие уязвимости в существующих системах искусственного интеллекта.

Также: Как исследователи взломали ChatGPT и что это может значить для будущего развития ИИ

Как объяснил лидер команды красных хакеров Google, некоторые из самых серьезных угроз для систем машинного обучения (МО) включают атаки со стороны злоумышленников, отравление данных, инъекции приглашений и атаки через заднюю дверь. К таким системам машинного обучения относятся те, которые построены на больших языковых моделях, таких как ChatGPT, Google Bard и Bing AI.

Эти атаки обычно называются «тактиками, техниками и процедурами» (TTP).

«Мы хотим, чтобы люди мыслили как противник», – сказал Фабиан The Register. «В области машинного обучения мы скорее пытаемся предвидеть, куда пойдут настоящие противники».

Также: Теперь ИИ может взломать ваш пароль, прослушивая щелчки клавиш

Команда красных хакеров Google AI недавно опубликовала отчет, в котором они описали наиболее распространенные TTP, используемые злоумышленниками против систем искусственного интеллекта.

Атаки со стороны противников на системы искусственного интеллекта

Атаки со стороны противников включают написание вводных данных, специально разработанных для ввода в заблуждение модели машинного обучения. Это приводит к неправильному выводу или выводу, который модель не давала бы в других обстоятельствах, включая результаты, которых модель может быть специально обучена избегать.

Также: ChatGPT неправильно отвечает на более половины вопросов по программированию

«Последствия удачной генерации атакующих примеров могут варьироваться от незначительных до критических и полностью зависят от использования классификатора искусственного интеллекта», – отмеченно в отчете команды красных хакеров Google AI.

Отравление данных искусственным интеллектом

Еще один распространенный способ атаки злоумышленников на системы машинного обучения – это отравление данных, которое заключается в манипуляции обучающими данными модели для нарушения ее процесса обучения, объяснил Фабиан.

«Отравление данных становится все более интересным», – сказал Фабиан The Register. «Любой может публиковать информацию в Интернете, в том числе злоумышленники, и они могут размещать свои отравленные данные. Поэтому мы, как защитники, должны найти способы определить, какие данные могут быть отравлены».

Также: Zoom запуталась в проблемах с конфиденциальностью ИИ

Атаки отравлением данных включают намеренное внесение некорректных, вводящих в заблуждение или манипулированных данных в набор обучающих данных модели, чтобы искажать ее поведение и результаты. Примером может быть добавление неправильных меток к изображениям в наборе данных для распознавания лиц, чтобы система намеренно неправильно определяла лица.

Один из способов предотвратить отравление данных в системах искусственного интеллекта – обеспечить безопасность цепочки поставки данных, как отмечено в отчете команды красных хакеров Google AI.

Атаки через инъекцию приглашений

Атаки через инъекцию приглашений в систему искусственного интеллекта предполагают, что пользователь вставляет дополнительное содержимое в текст приглашения, чтобы изменить вывод модели. В результате таких атак могут быть получены непредвиденные, предвзятые, неправильные и оскорбительные ответы, даже если модель специально программирована против них.

Также: Мы не готовы к влиянию генеративного ИИ на выборы

Поскольку большинство компаний по искусственному интеллекту стремятся создать модели, которые обеспечивают точную и непредвзятую информацию, важно защитить модель от пользователей с злонамеренными намерениями. Это может включать ограничения на то, что может быть введено в модель, и тщательный контроль того, что пользователи могут отправлять.

Атаки через заднюю дверь на модели искусственного интеллекта

Атаки через заднюю дверь являются одними из самых опасных агрессий против систем искусственного интеллекта, так как они могут оставаться незамеченными в течение длительного времени. Атаки через заднюю дверь могут позволить хакеру скрыть код в модели и саботировать вывод модели, а также кражу данных.

“С одной стороны, атаки очень специфичны для машинного обучения и требуют большого количества экспертизы в предметной области машинного обучения, чтобы изменить веса модели и внедрить заднюю дверь или выполнить конкретную настройку модели для интеграции задней двери”, – пояснил Фабиан.

Также: Как заблокировать нового веб-сканера OpenAI для обучения искусственного интеллекта, чтобы он не захватывал ваши данные

Эти атаки могут быть осуществлены путем установки и использования задней двери – скрытой точки входа, обходящей традиционную аутентификацию, для манипулирования моделью.

“С другой стороны, механизмы защиты от них в значительной степени являются классическими передовыми практиками безопасности, такими как контроль над злонамеренными сотрудниками и ограничение доступа”, – добавил Фабиан.

Атакующие также могут нацеливаться на системы искусственного интеллекта путем извлечения и эксфильтрации тренировочных данных.

Команда по искусственному интеллекту Google

Как объяснил Фабиан в своей последней статье в блоге, название “красная команда” происходит из сферы военного дела и описывает деятельность, в ходе которой определенная команда играет роль противника (красная команда) против команды “домашней команды”.

“Традиционные красные команды являются хорошей отправной точкой, но атаки на системы искусственного интеллекта быстро становятся сложными и требуют экспертизы в области искусственного интеллекта”, – добавил Фабиан.

Также: Попали ли вы в последний случай утечки данных? Вот как узнать

Атакующие также должны обладать теми же навыками и экспертизой в области искусственного интеллекта, но Фабиан считает, что команда по искусственному интеллекту Google опережает этих противников благодаря своим знаниям в области искусственного интеллекта, которыми они уже обладают.

Фабиан остается оптимистом в отношении работы своей команды и уверен, что она будет в пользу защитников, а не атакующих.

“В ближайшем будущем системы и модели машинного обучения значительно облегчат обнаружение уязвимостей безопасности”, – сказал Фабиан. “В долгосрочной перспективе это абсолютно в пользу защитников, потому что мы сможем интегрировать эти модели в жизненный цикл разработки программного обеспечения и убедиться, что выпускаемое нами программное обеспечение изначально не имеет уязвимостей”.