Команда AI Red Team компании Microsoft уже продемонстрировала свою эффективность

The Microsoft AI Red Team has already demonstrated its effectiveness.

Для большинства людей идея использования инструментов искусственного интеллекта в повседневной жизни, или даже просто экспериментирования с ними, стала популярной только в последние месяцы с появлением новых выпусков генеративных инструментов искусственного интеллекта от множества крупных технологических компаний и стартапов, таких как ChatGPT от OpenAI и Bard от Google. Но за кулисами эта технология распространялась уже много лет, вместе с вопросами о том, как наилучшим образом оценивать и обеспечивать безопасность этих новых систем искусственного интеллекта. В понедельник Microsoft раскрывает детали о команде внутри компании, которая с 2018 года занимается поиском уязвимостей искусственного интеллекта путем атаки на его платформы.

За пять лет с момента ее создания команда AI red team компании Microsoft превратилась из эксперимента в полноценную междисциплинарную группу экспертов по машинному обучению, исследователей кибербезопасности и даже социальных инженеров. Группа работает над передачей своих результатов внутри Microsoft и в технологической индустрии с использованием традиционной терминологии цифровой безопасности, чтобы идеи были доступны не только специалистам по искусственному интеллекту, которых пока еще не так много, но и большинству людей и организаций. Но на самом деле, команда пришла к выводу, что безопасность искусственного интеллекта имеет важные концептуальные отличия от традиционной цифровой защиты, что требует изменения подхода команды AI red team к ее работе.

“Когда мы начали, вопрос был: ‘Что вы будете делать по-другому? Зачем нам команда AI red team?'” – говорит Рам Шанкар Сива Кумар, основатель команды AI red team в Microsoft. – “Но если рассматривать AI red teaming только как традиционный red teaming и применять только подход безопасности, это может быть недостаточно. Мы должны признать ответственный аспект искусственного интеллекта, который заключается в ответственности за сбои AI-систем – генерацию оскорбительного контента, генерацию необоснованного контента. Это священная грааль AI red teaming. Нам нужно не только искать сбои в безопасности, но и сбои ответственного искусственного интеллекта”.

Сива Кумар говорит, что потребовалось время, чтобы выделить это отличие и доказать, что миссия команды AI red team действительно имеет двойную направленность. Большая часть ранней работы связана с выпуском более традиционных инструментов безопасности, таких как Threat Matrix для атакующего машинного обучения 2020 года, совместная разработка Microsoft, некоммерческой исследовательской группы MITRE и других исследователей. В том же году группа также выпустила инструменты автоматизации для тестирования безопасности искусственного интеллекта с открытым исходным кодом под названием Microsoft Counterfit. А в 2021 году команда опубликовала еще одну рамку оценки рисков безопасности искусственного интеллекта.

Со временем команда AI red team смогла развиваться и расширяться по мере того, как становилась очевидной неотложность устранения дефектов и сбоев машинного обучения.

В одной из ранних операций команда атаковала службу развертывания облачных вычислений Microsoft, в которой была компонента машинного обучения. Команда разработала способ запустить атаку отказа в обслуживании на других пользователей этой облачной службы, злоупотребляя уязвимостью, позволяющей создавать вредоносные запросы, чтобы злоумышленник мог создавать виртуальные машины – эмулированные компьютерные системы, используемые в облаке. Тщательно размещая виртуальные машины в ключевых позициях, команда AI red team могла запускать атаки “шумных соседей” на других пользователей облачных вычислений, когда активность одного клиента негативно сказывается на производительности другого клиента.

Команда в конечном итоге построила и атаковала оффлайн-версию системы, чтобы доказать существование уязвимостей, вместо риска негативного влияния на реальных клиентов Microsoft. Но Сива Кумар говорит, что эти находки в ранние годы убрали все сомнения или вопросы о практической пользе команды AI red team. “Вот там и прояснились для людей вещи”, – говорит он. – “Они были в шоке, если люди могут это делать, это не хорошо для бизнеса”.

Важно отметить, что динамичная и многогранная природа систем искусственного интеллекта означает, что Microsoft не сталкивается только с атаками самых ресурсоемких злоумышленников на платформы искусственного интеллекта. “Некоторые новые атаки, которые мы видим на большие модели языка, могут осуществляться подростками с грубыми выражениями, обычными пользователями с браузером, и мы не хотим пренебрегать этим”, – говорит Сива Кумар. – “Есть и целенаправленные атаки, но мы также признаем наличие нового типа людей, которые способны сбрасывать LLM и эмулировать их”.

Однако, как и любая команда атакующих, команда AI red team Microsoft не ограничивается исследованием атак, которые используются в настоящее время. Сива Кумар говорит, что группа сосредоточена на предвосхищении тенденций атаки в будущем. И это часто связано с акцентом на более новой составляющей отчетности об искусственном интеллекте. Когда группа обнаруживает традиционную уязвимость в приложении или программной системе, они часто сотрудничают с другими группами внутри Microsoft, чтобы устранить ее, а не тратить время на полное разработку и предложение исправления самостоятельно.

“В Microsoft есть и другие команды атакующих и другие эксперты по инфраструктуре Windows или что нам нужно”, – говорит Сива Кумар. – “Мое понимание заключается в том, что теперь AI red teaming охватывает не только сбои безопасности, но и сбои ответственного искусственного интеллекта”.

Команда AI Red Team компании Microsoft уже продемонстрировала свою эффективность

The Microsoft AI Red Team has already demonstrated its effectiveness.

Apple Pay запускается во Вьетнаме, скоро по...

Hyper представляет линейку аксессуаров R...

Быстрая зарядка Apple Watch станет обязател...

Threads добавляет две самые часто запрашива...

Скидки 15-дюймовый MacBook Air от Apple дос...

Скидка приобретите AirPods Pro 2 по низкой ...

News