Команда AI Red Team компании Microsoft уже продемонстрировала свою эффективность

The Microsoft AI Red Team has already demonstrated its effectiveness.

Для большинства людей идея использования инструментов искусственного интеллекта в повседневной жизни, или даже просто экспериментирования с ними, стала популярной только в последние месяцы с появлением новых выпусков генеративных инструментов искусственного интеллекта от множества крупных технологических компаний и стартапов, таких как ChatGPT от OpenAI и Bard от Google. Но за кулисами эта технология распространялась уже много лет, вместе с вопросами о том, как наилучшим образом оценивать и обеспечивать безопасность этих новых систем искусственного интеллекта. В понедельник Microsoft раскрывает детали о команде внутри компании, которая с 2018 года занимается поиском уязвимостей искусственного интеллекта путем атаки на его платформы.

За пять лет с момента ее создания команда AI red team компании Microsoft превратилась из эксперимента в полноценную междисциплинарную группу экспертов по машинному обучению, исследователей кибербезопасности и даже социальных инженеров. Группа работает над передачей своих результатов внутри Microsoft и в технологической индустрии с использованием традиционной терминологии цифровой безопасности, чтобы идеи были доступны не только специалистам по искусственному интеллекту, которых пока еще не так много, но и большинству людей и организаций. Но на самом деле, команда пришла к выводу, что безопасность искусственного интеллекта имеет важные концептуальные отличия от традиционной цифровой защиты, что требует изменения подхода команды AI red team к ее работе.

“Когда мы начали, вопрос был: ‘Что вы будете делать по-другому? Зачем нам команда AI red team?'” – говорит Рам Шанкар Сива Кумар, основатель команды AI red team в Microsoft. – “Но если рассматривать AI red teaming только как традиционный red teaming и применять только подход безопасности, это может быть недостаточно. Мы должны признать ответственный аспект искусственного интеллекта, который заключается в ответственности за сбои AI-систем – генерацию оскорбительного контента, генерацию необоснованного контента. Это священная грааль AI red teaming. Нам нужно не только искать сбои в безопасности, но и сбои ответственного искусственного интеллекта”.

Сива Кумар говорит, что потребовалось время, чтобы выделить это отличие и доказать, что миссия команды AI red team действительно имеет двойную направленность. Большая часть ранней работы связана с выпуском более традиционных инструментов безопасности, таких как Threat Matrix для атакующего машинного обучения 2020 года, совместная разработка Microsoft, некоммерческой исследовательской группы MITRE и других исследователей. В том же году группа также выпустила инструменты автоматизации для тестирования безопасности искусственного интеллекта с открытым исходным кодом под названием Microsoft Counterfit. А в 2021 году команда опубликовала еще одну рамку оценки рисков безопасности искусственного интеллекта.

Со временем команда AI red team смогла развиваться и расширяться по мере того, как становилась очевидной неотложность устранения дефектов и сбоев машинного обучения.

В одной из ранних операций команда атаковала службу развертывания облачных вычислений Microsoft, в которой была компонента машинного обучения. Команда разработала способ запустить атаку отказа в обслуживании на других пользователей этой облачной службы, злоупотребляя уязвимостью, позволяющей создавать вредоносные запросы, чтобы злоумышленник мог создавать виртуальные машины – эмулированные компьютерные системы, используемые в облаке. Тщательно размещая виртуальные машины в ключевых позициях, команда AI red team могла запускать атаки “шумных соседей” на других пользователей облачных вычислений, когда активность одного клиента негативно сказывается на производительности другого клиента.

Команда в конечном итоге построила и атаковала оффлайн-версию системы, чтобы доказать существование уязвимостей, вместо риска негативного влияния на реальных клиентов Microsoft. Но Сива Кумар говорит, что эти находки в ранние годы убрали все сомнения или вопросы о практической пользе команды AI red team. “Вот там и прояснились для людей вещи”, – говорит он. – “Они были в шоке, если люди могут это делать, это не хорошо для бизнеса”.

Важно отметить, что динамичная и многогранная природа систем искусственного интеллекта означает, что Microsoft не сталкивается только с атаками самых ресурсоемких злоумышленников на платформы искусственного интеллекта. “Некоторые новые атаки, которые мы видим на большие модели языка, могут осуществляться подростками с грубыми выражениями, обычными пользователями с браузером, и мы не хотим пренебрегать этим”, – говорит Сива Кумар. – “Есть и целенаправленные атаки, но мы также признаем наличие нового типа людей, которые способны сбрасывать LLM и эмулировать их”.

Однако, как и любая команда атакующих, команда AI red team Microsoft не ограничивается исследованием атак, которые используются в настоящее время. Сива Кумар говорит, что группа сосредоточена на предвосхищении тенденций атаки в будущем. И это часто связано с акцентом на более новой составляющей отчетности об искусственном интеллекте. Когда группа обнаруживает традиционную уязвимость в приложении или программной системе, они часто сотрудничают с другими группами внутри Microsoft, чтобы устранить ее, а не тратить время на полное разработку и предложение исправления самостоятельно.

“В Microsoft есть и другие команды атакующих и другие эксперты по инфраструктуре Windows или что нам нужно”, – говорит Сива Кумар. – “Мое понимание заключается в том, что теперь AI red teaming охватывает не только сбои безопасности, но и сбои ответственного искусственного интеллекта”.