Исследователи нашли способ отравить изображения для обучения ИИ

Исследователи нашли способ обезвредить изображения для использования искусственным интеллектом в обучении

Возникновение AI-генеративных инструментов искусства, таких как DALL-E, Midjourney и Stable Diffusion, вызвало ожесточенные дебаты и противоречия. Эти системы могут создавать фотореалистичные изображения и искусство просто по текстовым подсказкам, обучаясь на огромных наборах данных, собранных с Интернета. Однако это вызвало серьезные опасения по поводу нарушения авторских прав, согласия и злоупотребления творчеством художников.

В ответ на это исследователи разработали радикальную новую технологию под названием Nightshade, позволяющую создателям «отравить» своё цифровое искусство. Цель заключается в sabbotage систем ИИ, пытающихся усвоить их контент без разрешения.

Инструменты, такие как DALL-E 2 и Stable Diffusion, используют форму ИИ, называемую нейронными сетями. Они обучаются на огромных наборах данных изображений, сопоставленных с подписями или текстовыми описаниями. Это позволяет им узнать отношение между текстовыми понятиями и визуальными характеристиками.

Например, если модель видит миллионы помеченных как «собака» изображений, показывающих мех, четыре ноги, хвост и т.д., она учится ассоциировать эти визуальные образы с словом «собака». Затем она может создавать абсолютно новые фотореалистичные изображения собаки с нуля, если ей дается текстовая подсказка, например, «милый щенок, сидящий на траве».

Опасения по поводу использования творческого контента художников

Модели становятся более способными по мере их обучения большему количеству данных. Это заставляет технологических гигантов собирать миллионы изображений из Интернета без согласия художников. Однако многие создатели несчастны из-за использования своих работ для обучения ИИ без разрешения или компенсации.

Это ставит художников перед двумя дилеммами — делиться своими работами публично и рисковать злоупотреблением обучения ИИ или стать приватными и потерять экспозицию? Платформы, такие как Instagram, DeviantArt и ArtStation, стали источниками обучающих данных для систем ИИ.

Как Nightshade вводит яд в модели ИИ

Согласно недавнему исследовательскому документу, Nightshade предлагает умное решение, нападая и портя сами модели ИИ. Он добавляет незаметные для людей тонкие изменения в пикселях цифрового искусства. Но эти нюансы заставляют ИИ ошибочно интерпретировать концепции изображений и текстовых подписей.

Например, Nightshade может изменить изображение собаки так, чтобы модель ИИ приняла его за велосипед или шляпу. Если достаточно «отравленных» изображений распространяется среди набора данных ИИ, он начинает придумывать странные связи между текстом и изображениями.

Тестирование показывает, что Nightshade может заставить модели ИИ, такие как Stable Diffusion, создавать абсолютно сюрреалистическое и бессмысленное искусство. Например, изображения собак становятся существами слишком многими конечностями и искаженными мультяшными лицами после 50 отравленных образцов. После усвоения 300 отравленных фотографий собак Stable Diffusion даже выводит изображения кошек при попытке создания собаки.

Атака Nightshade использует непрозрачность нейронных сетей. Причины повреждения сложно отследить в огромных наборах данных. Это означает, что удаление данных с ядом — это, как найти иголку в стоге сена.

Атака также распространяется между связанными понятиями. Поэтому отравление изображениями из «фэнтезийного искусства» запутывает ИИ относительно связанных терминов, таких как «драконы» или «замки». Это делает ручное очищение влияния Nightshade практически невозможным в масштабе.

Давая художникам основной инструмент для борьбы

Учитывая юридические проблемы в отношении генерации контента ИИ, Nightshade представляет собой важную тактическую опцию для творцов. Он позволяет им напрямую sabbotage системы, извлекающие выгоду из их работ, автоматическим образом. Исследователи планируют внедрить его в приложение под названием Glaze, которое уже маскирует художественные произведения от сбора информации ИИ.

Скоро Nightshade будет представлен в виде открытого исходного кода, и мы можем увидеть несколько версий, способных отравить модели ИИ. Это может заставить генеративные платформы пересмотреть свои подходы к сбору данных и правильно указывать авторов. Но разработчики ИИ также пытаются найти способы обнаружения и удаления таких атак. В настоящее время Nightshade предлагает создателям жизненно необходимый инструмент, помогающий вернуть контроль в гонке ИИ в искусстве — очень возможно, только на короткое время, пока не будут разработаны автоматические системы, способные обнаруживать такие отравленные изображения.

Изображение: Image by Willo M.; Pexels; Спасибо!