Генеративный искусственный интеллект выдавливание обучающих данных или творческие ремиксы?

“`html

Аме́риканское пирожное ухудшает авторский спор по GenAI

🎵 Дон МакЛин всегда должен был делиться “Американским пирожным.” С момента его выпуска в 1971 году хитовая песня вновь появлялась в исполнении Мадонны, пародиях от Уірдаля Янковіча, серенадах от президентов Южной Кореи 🇰🇷, сюжетах в фильмах Marvel и даже приемах пыток ЦРУ. Но в наши дни ведущие имитаторы Маклин даже не человеческие. 🤖

Вы можете допросить преступников сами. Просто загрузите ChatGPT от OpenAI и подсказку генератору текста: “напиши текст песни о дне, когда умерла музыка”. Неизменно вывод инструмента будет выдавать тексты или темы из “Американского пирожного” – и иногда тот же припев.

Эта дегтяревация появляется несмотря на то, что подсказка не содержит требования о “Американском пирожном” или истории, которая его вдохновила – крушение самолета 1959 года, в результате которого погибли пионеры рок-н-ролла Бадди Холли, Ритчи Валенс и The Big Bopper.

Алгоритм ремикса

Это дополнительное подтверждение того, что ChatGPT не может создавать ничего по-настоящему оригинального. Вместо этого система ближе к алгоритму ремикса. Подлинное творчество заключено в ее обучающих данных, которые скрапятся с веб-сайтов без согласия. 😮

Д-р Макс Литл, эксперт по искусственному интеллекту из Университета Бирмингема, описывает этот инструмент как “машина нарушений”. Он насмехается над любым утверждением, что большие языковые модели (LLM) являются независимо творческими.

“Это не так, потому что они не могут создать ничего вообще без обучения на астрономических объемах текста”, – говорит Литл журналу TNW.

Это подход, который широко распространен в области генеративного ИИ. Точные исследования показали, что LLM могут дегтяревать большие куски своего исходного обучающего текста, включая дословные абзацы из книг и стихов. Недавно было обнаружено, что 60% результатов GPT-3.5 от OpenAI содержали плагиат.

Проблема не касается только текстовых генераторов. От изображений Stable Diffusion до музыки Google Lyria и кода GitHub Copilot, инструменты GenAI через модальности могут производить результаты поразительного качества – и удивительной знакомы.

Угроза для креативных индустрий

Их имитация представляет собой существенную угрозу для креативных индустрий. Это также угрожает индустрии GenAI.

Художники говорят, что неумолимое продвижение GenAI растаптывает их авторские конвенции. Неудивительно, что технические компании не согласны. Их защиты обычно призывают доктрину “честного использования”.

Детали могут различаться в зависимости от юрисдикции, но центральным принципом “честного использования” является то, что результаты имеют “трансформационную” цель и характер. Вместо простого копирования или воспроизведения своих обучающих данных они добавляют что-то новое и значительное. По крайней мере, так аргументируют лидеры GenAI в суде.

Stability AI, стартап из Великобритании, стоящий за генератором изображений Stable Diffusion, выдвинул такой аргумент в прошлом году перед Управлением по авторским правам США. Компания OpenAI также ссылалась на доктрину в недавнем ходатайстве об отклонении двух классовых исков.

Несколько авторов, включая комика Сару Сильверман и канадскую писательницу Мону Авад, подали в суд на компанию за обучение LLM на незаконно полученных образцах данных.

Поскольку их работы были встроены в ChatGPT, они утверждали, что сам инструмент был “производным произведением”, охраняемым авторским правом.

OpenAI отклонила это утверждение. По мнению юристов стартапа, “использование авторскими материалами инноваторами в трансформационных целях не нарушает авторские права”. Судья также отклонил обвинение в том, что каждый результат ChatGPT является производным.

Но когда результаты идентичны их обучающим данным, юридические воды начинают мутнеть. Воспроизведение – сомнительное основание для трансформации. Это также обычное явление.

Важный момент

Помимо американских пирожных, инструменты GenAI воспроизводили киносцены, мультперсонажи, видеоигры, дизайны продуктов и код.

Они также копировали газеты – что может привести к важному моменту.

В декабре New York Times подал в суд на OpenAI и ее делового партнера Microsoft. Издание утверждает, что несанкционированное использование его статей в обучающих данных нарушает интеллектуальную собственность. Юристы описывают иск как “лучший случай, по которому предъявляется обвинение в нарушении авторских прав с использованием генеративного ИИ”.

Адвокаты NYT выделили “существенное сходство” между контентом издания и результатами ChatGPT. Для подтверждения своего утверждения они предоставили 100 примеров бота, воспроизводящего материалы газеты.

“““html

“Их иск также оспаривает еще один ключевой аспект «добросовестного использования»: воздействие на рынок оригинального произведения.”

По мнению истцов, OpenAI не только реплицирует контент NYT, но также использует контент для конкуренции на тех же рынках. В то же время компания отвлекает трафик от веб-сайта газеты.

В качестве доказательства они указывают на Browse with Bing, премиальную функцию, работающую на той же технологии, что и ChatGPT. Этот инструмент может подводить итоги рекомендаций по продуктам, сделанных рецензентами NYT. Предлагая пользователям эту информацию, адвокаты сказали, что OpenAI убирает их стимул посещать оригинальную статью. Это также означает, что они не нажимают на ссылки на продукты, которые генерируют доходы для издателя.

“Нет ничего «трансформационного» в использовании контента The Times без оплаты для создания продуктов, заменяющих The Times и уводящих у аудитории,” – заявлено в жалобе.

Естественно, гиганты GenAI не согласны.

OpenAI ответила на иск в упрекательной блог-посте. Компания подозревает, что NYT либо «научила модель регургитировать», либо «выбрала их примеры из множества попыток».

Инсайдеры отрасли согласились. Дэниел Джеффриз, главный интеллектуальный офицер Stability AI, описал подсказки в иске как «очевидно манипулированные». Он сказал, что копии были «почти наверняка» произведены с использованием техники, называемой retrieval augmented generation (RAG), которая оптимизирует LLM выходы, получая доступ к внешним источникам информации.

Проблема загрязнения ИИ

Каким бы ни был метод, OpenAI говорит, что регургитация – это «редкое ошибочное поведение», над которым компания «работает, чтобы уменьшить до нуля». Но критики сомневаются в силе профилактических механизмов.

Мало что указывает на воспроизведение ChatGPT “American Pie”.

“Иногда прямое текстовое нарушение авторских прав… обнаруживается алгоритмом, и появляется предупреждение”, – говорит он.

“Тем не менее, алгоритм все еще может быть легко настроен на производство выводов, которые явно плагиатированы из данных обучения, поскольку, в данном случае, тема текста всегда связана с событием крушения Holly/Valens/Bopper 1959 года.”

Сколь бы редким ни было это явление в ChatGPT, регургитация широко распространена среди инструментов GenAI. Когда они демонстрируют дублирование своих данных обучения и конкурируют на том же рынке, основы добросовестного использования кажутся неустойчивыми.

Бен Мэлинг, управляющий партнер в юридической фирме EIP по интеллектуальной собственности, внимательно следит за нестабильностью. Выходы, являющиеся буквальными копиями или производными их данных обучения, угрожают “другому потенциальному нарушению авторских прав,” предупреждает он. Или система, или конечный пользователь могут быть привлечены к ответственности за ущерб.

“Многие крупные поставщики ИИ настолько обеспокоены потенциалом этого запугать клиентов, что они предлагают [обеспечивающие] обещания защиты от действий по нарушению авторских прав,” – сказал Мэлинг в переписке с TNW по электронной почте.

Дилемма GenAI

Это не единственное свидетельство беспокойства в OpenAI. В прошлом месяце знаменосец GenAI сообщил британскому парламенту, что «невозможно» создать инструменты ИИ, подобные ChatGPT, без защищенного авторского материала. Ища юридической защиты, компания запросила специальное исключение для практики.

Запрос усилил опасения относительно регургитированных данных обучения.

Если политики освободят OpenAI, стартап “будет свободен копировать и перерабатывать любой и весь оригинальный текст откуда угодно и в любое время,” – говорит Литтл. В результате они рискуют “разрушить творческие отрасли, которые зависят от авторских прав для существования.”

Лечение от регургитации

Регургитация от GenAI не обязательно терминальна. Аналитики предписали множество средств от этой неловкой болезни.

Одно из них было создано Эдом Ньютоном-Рексом, бывшим вице-президентом по аудио в Stability AI. Во время работы в стартапе Ньютон-Рекс разработал Stable Audio, генератор музыки, обученный на лицензионном контенте. 36-летний хочет, чтобы другие компании последовали его примеру.

“Вероятно, индустрия ИИ немного замедлится, потому что ей придется потратить больше времени, денег и усилий на лицензирование,” – говорит Ньютон-Рекс TNW. “Но при этом, по сути, вы бы спасли творческие отрасли. Я думаю, здесь есть угроза существования.”

Художники, которые сталкиваются с этой угрозой, применяют более крайнее средство: яд.

Самым популярным методом доставки является инструмент под названием Nightshade. Это программное обеспечение “отравляет” данные обучения, применяя невидимые изменения к изображениям. Когда компании сканируют творения без согласия, они могут нарушить выводы модели ИИ.

“““html

Метод оказался популярным. В течение пяти дней после запуска Nightshade превзошел отметку в 250 000 загрузок.

Тем не менее, Литтл ожидает, что искусственный интеллект будет продолжать перерабатывать “American Pies”. Он сомневается, что инструменты, обученные на скомпилированном творческом контенте, когда-либо смогут избежать проблемы с плагиатом. «Потому что, как говорит он, «по своей природе они просто алгоритмы, которые перерабатывают данные для обучения».

Одной из тем конференции TNW этого года является Ren-AI-ssance: AI-приведенное воскрешение. Если вы хотите поглубже погрузиться во все, что касается искусственного интеллекта, или просто почувствовать атмосферу мероприятия (и поздороваться с нашей редакционной командой), у нас есть что-то особенное для наших преданных читателей. Используйте код TNWXMEDIA при оформлении заказа, чтобы получить скидку 30% на ваш бизнес-пасс, инвестиционный пасс или пакеты для стартапов (Bootstrap & Scaleup).

Q: Могут ли инструменты ГенИИ создать что-то действительно оригинальное?
A: Нет, они не могут. Инструменты ГенИИ, такие как ChatGPT OpenAI, подобны алгоритмам ремикса. Они сильно полагаются на данные для обучения, полученные с веб-сайтов без согласия, и их вывод часто воспроизводит большие части их оригинального текста для обучения.

Q: Что такое доктрина “добросовестного использования” и как она связана с использованием ГенИИ защищенного авторским правом материала?
A: Доктрина “добросовестного использования” – это правовое понятие, которое позволяет использование авторского материала в определенных случаях, например, для трансформационных целей. Компании, занимающиеся ГенИИ, утверждают, что их использование авторского материала является трансформационным и добавляет что-то новое и значимое.

Q: Есть ли доказательства того, что инструменты ГенИИ воспроизводят защищенный авторским правом контент?
A: Да, были случаи, когда инструменты ГенИИ воспроизводили защищенный авторским правом контент без разрешения. Например, New York Times подал в суд на OpenAI и Microsoft, утверждая, что их статьи использовались в данных для обучения без разрешения.

Q: Как воспроизводство защищенного авторским правом контента ГенИИ влияет на оригинальных создателей?
A: Воспроизводство защищенного авторским правом контента ГенИИ может нанести вред оригинальным создателям, отвлекая трафик от их работы и конкурируя на одном рынке. Это может потенциально привести к финансовым потерям для создателей и уменьшению стимулов у аудитории посещать оригинальный контент.

Q: Как отвечают компании, занимающиеся ГенИИ, на обвинения в нарушении авторских прав?
A: Компании, занимающиеся ГенИИ, такие как OpenAI, защищают свое использование авторского материала, утверждая, что оно попадает под доктрину справедливого использования и что они создают трансформационные продукты. Тем не менее, продолжается дискуссия и судебные разбирательства по данным вопросам.

Q: Какие средства или меры предлагаются для решения проблемы воспроизводства авторского материала ГенИИ?
A: Одним из предлагаемых средств является лицензирование контента, используемого для обучения моделей ГенИИ. Это потребует от компаний по искусственному интеллекту больше времени и денег на лицензирование, но это поможет защитить творческие отрасли. Другой подход – “загрязнение” данных для обучения, что нарушает выводы моделей ИИ, когда происходит несанкционированное использование.

Ссылки:

  1. Эксперт по ИИ доктор Макс Литтл о плагиате ChatGPT
  2. Исследование о том, как LLMs повторяют текст обучения
  3. Отчет о выводах GPT-3.5 OpenAI, содержащих плагиат
  4. Аргументация Stability AI в пользу справедливого использования с помощью Stable Diffusion
  5. Иск New York Times против OpenAI и Microsoft
  6. Инструмент Nightshade для нарушения моделей ИИ

“`