«Я проверил факты вместе с Bard, Claude и Copilot, и этот искусственный интеллект был самым уверенно неправильным»

«Я проверил факты вместе с Бардом, Клодом и Копилотом, и этот искусственный интеллект оказался наиболее необоснованно неправильным»

Абстрактная комната искусственного интеллекта с разноцветными огнями на стенах

Генеративный искусственный интеллект (AI) известен своей склонностью к фактическим ошибкам. Что же делать, если вы попросили ChatGPT сгенерировать 150 предполагаемых фактов, и вы не хотите тратить целый уик-энд, чтобы каждый из них проверить вручную?

Также: ИИ в 2023 году: год прорывов, которые оставили без изменений ни один человека вещи

В моем случае я обратился к другим ИИ. В этой статье я объясню проект, рассмотрю, как каждый ИИ справился с проверкой фактов, и дам некоторые заключительные мысли и предостережения, если вы тоже хотите отправиться в этот лабиринт закрученных проходов, все одинаковых.

Проект

На прошлой неделе мы опубликовали очень интересный проект, где у нас был DALL-E 3, запущенный внутри ChatGPT, генерирующий 50 живописных изображений, которые, по его мнению, представляют каждый штат США. Я также попросил ChatGPT перечислить “три самых интересных факта, которые вы знаете о штате”. Результаты были, как сказал мой редактор в заголовке статьи, “великолепно странные”.

ChatGPT поместил Голденгейтский мост где-то в Канаде. Инструмент поместил Свободу-статую и в Среднем Западе США, и где-то на острове Манхэттен. И он сгенерировал две здания Empire State Building. Вкратце, ChatGPT напускал на себя стиль “абстрактного экспрессионизма”, но результаты были довольно крутыми.

Также: Я попросил DALL-E 3 создать портрет каждого штата США, и результаты оказались прекрасно странными

Что касается отдельных фактов, они в основном были точными. Я довольно хорошо разбираюсь в географии и истории США и могу сказать, что немногие из сгенерированных ChatGPT фактов кажутся невероятно неправильными. Но я не проводил никакой независимой проверки фактов. Я просто прочитал результаты и признал их достаточно хорошими.

Но что делать, если нам действительно интересна точность тех 150 фактов? Такой вопрос кажется идеальным проектом для ИИ.

Методология

Итак, вот дело. Если факты были сгенированы GPT-4, крупной языковой моделью (LLM), использованной ChatGPT Plus, я не был до конца уверен, что именно она должна проверять их. Это как попросить средних школьников написать историческую работу без использования источников, а затем самим исправлять их работу. Они уже начинают с подозрительной информации, а потом разрешают им самим исправляться? Нет, мне это кажется неправильным.

Также: Два прорыва сделали 2023 год самым инновационным годом в течение десятилетия

Но что, если мы покормим эти факты другим LLM внутри других ИИ? У Bard от Google и у Claude от Anthropic есть свои собственные LLM. Bing использует GPT-4, но я решил протестировать его ответы, чтобы быть полным.

Как вы увидите, лучший отклик я получил от Bard, поэтому я подал его ответы обратно в ChatGPT в круговую перверсию естественного порядка вселенной. Это был интересный проект.

Anthropic Claude

Claude использует Claude 2 LLM, который также используется в реализации ИИ Notion. Claude позволил мне подать ему PDF с полным набором фактов (без картинок). Вот что я получил:

В целом, Claude считает список фактов в основном точным, но у него были некоторые уточнения для трех пунктов. Я ограничил, насколько длинными могут быть факты ChatGPT, и это ограничение мешает нюансам в описаниях фактов. Факт-чек у Claude нашел проблему в этом отсутствии нюансов.

В целом, это был обнадеживающий ответ.

Сопилот… или нетпилот?

Теперь мы переходим к Copilot от Microsoft, переименованной Bing Chat AI. Copilot не позволяет загружать PDF-файлы, поэтому я попробовал вставить текст из всех 50 фактов о штатах. Этот подход сразу оказался неудачным, потому что Copilot принимает только запросы до 2 000 символов:

Я задал Copilot следующий вопрос:

Следующий текст содержит названия штатов, за которыми следуют три факта о каждом из них. Пожалуйста, изучите факты и определите, какие из них ошибочны для каждого штата

Вот что мне ответили:

Он практически повторил данные фактов, которые я попросил проверить. Поэтому я попытался направить его более настойчивым запросом:

Опять же, он вернул мне данные, которые я просил проверить. Мне показалось это очень странным, потому что Copilot использует тот же LLM, что и ChatGPT. Очевидно, что Microsoft настроила его иначе, чем ChatGPT.

Я сдался и перешел к Bard.

Bard

Google только что анонсировал свою новую модель Gemini LLM. У меня еще нет доступа к Gemini, поэтому я провел эти тесты на модели PaLM 2 Google.

Также: Что такое Gemini? Все, что вам нужно знать о новой модели искусственного интеллекта Google

По сравнению с Claude и Copilot Bard справился на отлично, или, как бы сказал Шекспировский, “он стоит над миром, как Колосс”

Посмотрите результаты ниже:

Важно отметить, что многие факты о штатах даже не согласованы самими штатами или имеют нюансы. Как покажу в следующем разделе, я вернул этот список в ChatGPT, и он нашел два расхождения в ответах для Аляски и Огайо.

Но здесь есть и другие ошибки. В некотором смысле Bard переусердствовал в выполнении задания. Например, Bard правильно указал, что помимо Мэна есть и другие штаты, производящие лобстеров. Но Мэн полностью ориентирован на производство лобстеров. Я никогда не был в другом штате, где в качестве одного из самых популярных сувениров для туристов были миниатюрные ловушки для лобстеров.

Также: Я провел выходные с бесплатными курсами по искусственному интеллекту от Amazon и настоятельно рекомендую это сделать и вам

Или давайте выберем Неваду и Зону 51. ChatGPT сказал: “Строго секретная военная база, слухи о НЛО”. Бард попытался поправить, говоря: “Зона 51 не только слухи о НЛО. Это настоящая строго секретная военная установка, и ее назначение неизвестно”. Они говорят практически о том же самом. Бард просто проигнорировал тонкости, которые возникают из-за ограничения на количество слов.

Бард также ошибся с Миннесотой. Да, в Висконсине тоже много озер. Но Бард не утверждал, что Миннесота имеет больше озер. Он просто описал Миннесоту как “Страну 10 000 озер”, что является одним из самых известных лозунгов Миннесоты.

Бард также зацепился за Канзас. ChatGPT сказал, что Канзас – это “центральная точка совместных Штатов”, а Бард утверждал, что это Южная Дакота. И это было бы правдой, если учесть Аляску и Гавайи. Но ChatGPT сказал “совместные Штаты”, и этот титул принадлежит точке возле Лебанона, Канзас.

Кроме того: Это профессии, наиболее подверженные захвату искусственным интеллектом

Я могу продолжать, и я продолжу в следующем разделе, но вы поняли суть. Проверка фактов Барда выглядит впечатляюще, но часто она упускает суть и так же ошибается, как и другие искусственные интеллекты.

Перед тем, как перейти к ограниченной проверке фактов ChatGPT проверки фактов Барда, позвольте отметить, что большинство записей Барда были либо неверными, либо ошибочными. И всё же, Google помещает ответы его искусственного интеллекта перед большинством результатов поиска. Это вас беспокоит? Меня, конечно, это беспокоит.

Такое чудо, милорды и госпожи, не подлежит разговору.

ChatGPT

Сразу можно было понять, что Бард ошибся в одном из своих фактов – Аляска гораздо больше, чем Техас. Так что я решил проверить факты Барда с помощью ChatGPT. На мгновение мне показалось, что этот замкнутый круг искусственного интеллекта может вывести Луну из орбиты Земли, но потом я решил, что рискну структурой нашей вселенной, потому что знал, что вам хотелось бы узнать, что произошло:

Вот что я покормил ChatGPT:

И вот что сказал ChatGPT (и, для ясности, Луна осталась на орбите):

Как видите, ChatGPT не согласился с ошибочным утверждением Барда о том, что Техас – самый большой штат. Он также запутался междуавиацией в Огайо и Канзасе, что вызывает больше споров, чем преподают в большинстве школ.

Кроме того: 7 способов убедиться, что ваши данные готовы для генеративного искусственного интеллекта

Общепринято считать, что первыми осуществили полет на самолете были Уилбур и Орвилл Райт (фактически в Китти Хок, Северная Каролина), хотя они и построили свой Wright Flyer в Дейтоне, Огайо. Стоит заметить, что существуют и другие претенденты на звание “первых в полете”, такие как Сэр Джордж Кейли (1804), Анри Жиффар (1852), Феликс дю Темпль (1874), Клеман Адер (1890), Отто Лилиенталь (1891), Сэмюэль Лэнгли (1896), Густав Вайтхед (1901) и Ричард Пирс (1902) – из Новой Зеландии, Великобритании, Франции, Германии и других регионов США.

Но мы дадим преимущество ChatGPT, потому что у него всего 10 слов, чтобы заявить что-то, и Огайо был местом, где братья Райт имели свой велосипедный магазин.

Выводы и оговорки

Давайте сразу разберемся: если вы сдаете работу или документ, в котором ваши факты должны быть правильными, проверьте их сами. В противном случае ваши амбиции размером с Техас могут оказаться погребенными под проблемой размером с Аляску.

Как мы видели в наших тестах, результаты (как и у Барда) могут выглядеть впечатляющими, но быть полностью или частично неверными. В целом, было интересно попросить различных искусственных интеллектов проверить друг друга, и это процесс, который я, вероятно, буду исследовать дальше, но результаты были только заключительными в том, насколько они были незаключительными.

Копилот совсем сдался и просто попросил вернуться ко сну. Клод возразил по поводу нюансов нескольких ответов. Бард жестко атаковал целый ряд ответов – но, кажется, ошибаться – это не только свойственно человеку, но и ИИ.

Кроме того: Эти 5 основных технологических достижений 2023 года стали самыми серьезными игроками

В заключение, я должен процитировать настоящего Барда и сказать: “Путаница теперь стала его шедевром!”

Что вы думаете? Какие ужасные ошибки вы видели у вашего любимого ИИ? Вы удовлетворены доверием фактам ИИ или теперь будете проверять их самостоятельно? Дайте нам знать в комментариях ниже.

Вы можете следить за обновлениями моего проекта на протяжении каждого дня в социальных сетях. Обязательно подпишитесь на мой еженедельный информационный бюллетень на Substack, и следите за мной в Twitter по адресу @DavidGewirtz, на Facebook по адресу Facebook.com/DavidGewirtz, на Instagram по адресу Instagram.com/DavidGewirtz, и на YouTube по адресу YouTube.com/DavidGewirtzTV.

«Я проверил факты вместе с Bard, Claude и Copilot, и этот искусственный интеллект был самым уверенно неправильным»

«Я проверил факты вместе с Бардом, Клодом и Копилотом, и этот искусственный интеллект оказался наиболее необоснованно неправильным»

Проект

Методология

Anthropic Claude

Сопилот… или нетпилот?

Bard

ChatGPT

Выводы и оговорки

TikTok вкладывает $1.5 млрд в электронный к...

«Apple откладывает запуск совместных плейли...

Джеймс Уэбб представляет потрясающее изобра...

Стартап по платежам SumUp собирает €285 млн...

Сегодня в магазине цены на Apple AirPods сн...

Экономьте $80 при покупке дверного звонка G...

News