Факт-чекинг искусственными интеллектами можно им доверять? 🤖🔎

Ошибаться - это человеческая ошибка, и, кажется, также искусственный интеллект.

Я проверил ChatGPT с помощью Bard, Claude и Copilot – и этот ИИ оказался смешно неправильным, но уверенным!

Абстрактная комната с искусственным интеллектом с яркими огнями на стенах

Генеративный искусственный интеллект (ИИ) получил популярность благодаря способности генерировать контент, но не секрет, что он часто допускает фактические ошибки. Итак, что происходит, когда вам нужно проверить факты большого количества генерируемых ИИ утверждений? Как эксперт по компьютерной технологии и программированию, я отправился на миссию, чтобы узнать.

В этой статье я расскажу вам об интересном проекте, в котором я использовал несколько ИИ, чтобы проверить факты в наборе из 150 утверждений, сгенерированных ChatGPT. Я поделюсь методологией этого противостояния проверки фактов, отзывами, полученными от разных ИИ, и предложу некоторые завершающие мысли и предостережения для тех, кто собирается попробовать свои силы в этом лабиринте ИИ.

🚀 Проект: Проверка фактов с помощью ИИ

На прошлой неделе я опубликовал увлекательный проект, в котором ChatGPT генерировал 50 живописных изображений, представляющих каждый из 50 штатов США, вместе с тремя интересными фактами о каждом штате. Результаты были забавными, но они вызвали вопросы о точности фактов.

Хотя лично я нашел факты в основном точными, я решил протестировать ИИ и определить достоверность всех 150 утверждений. В конце концов, кто лучше, чем другой ИИ, может проверить другого ИИ?

📋 Методология: Сравнение разных ИИ

Я не хотел полагаться исключительно на ChatGPT для проверки своих собственных утверждений. Это было бы как просить студентов написать историческую работу без ссылок и затем самим исправить свою работу. Поэтому я обратился к другим языковым моделям в различных фреймворках искусственного интеллекта – Claude от Anthropic, Copilot от Microsoft и Bard от Google. Каждый из этих ИИ имеет свои собственные уникальные модели глубокого обучения и подходы.

Я покормил каждого ИИ утверждениями фактов и наблюдал за их ответами. Я стремился оценить их способности проверки фактов и выявить любые расхождения в их оценках.

📚 Анализ: Способности ИИ в проверке фактов

Anthropic Claude 🕵️‍♂️

Claude, основанный на модели языка Claude 2, давал в основном точные результаты, но вызывал опасения относительно отсутствия нюансов в описаниях фактов ChatGPT. Хотя ответ Клода был обнадеживающим, он подчеркнул ограничения, вызванные ограничением количества символов для генерации фактов ChatGPT.

Microsoft’s Copilot ❌🛫

Copilot, ранее известный как Bing Chat AI, не справился с ожиданиями. Он не смог обработать полный набор фактов в одном запросе из-за ограничения по количеству символов. Copilot просто отразил данные фактов, которые я попросил проверить, не предоставив никаких значимых ответов по проверке фактов.

Google’s Bard 🎭

Bard, использующий модель Google PaLM 2, оказался звездой шоу. Он предоставил полную обратную связь, успешно проверив генерируемые утверждения ChatGPT. Однако Bard иногда компенсировал свои назначения, упуская некоторые контекстуальные нюансы. Несмотря на эти незначительные промахи, способность Bard проверять факты превосходила другие ИИ.

ChatGPT проверяет факты Bard ✅❌

Было интересно узнать, может ли ChatGPT обнаружить неточности в ответе Bard, поэтому я подал отфактчекенные утверждения Bard обратно в ChatGPT. ChatGPT заметил расхождения в ответах, касающихся Аляски и Огайо, и успешно проверил факты Bard. В конечном счете, коррекции ChatGPT соответствовали широко признанным фактам и были подтверждены историческими доказательствами.

🧐 Выводы и предостережения

Хотя интеракции проверки фактов между этими ИИ были увлекательными, результаты были далеки от окончательных. Следует отметить, что полное доверие ИИ для достоверности фактов не является надежным. Человеческая проверка фактов остается неоценимой для важных документов и проектов, где точность играет решающую роль.

Хотя Bard проявил впечатляющие возможности по проверке фактов, ему не хватило контекстных нюансов, как и другим ИИ. С учетом того, что поисковые системы, такие как Google, все больше включают ответы, созданные ИИ, в результаты поиска, становится критически важным быть осторожным и проверять точность информации.

Итак, друзья-энтузиасты ИИ, каковы ваши мысли? Сталкивались ли вы с какими-либо грубыми ошибками со стороны ваших любимых ИИ? Будете ли вы полагаться только на их способности по проверке фактов или вы будете реализовывать дополнительные процессы проверки фактов? Поделитесь своими мнениями и опытом в комментариях ниже!

🎉 Оставайтесь на связи и делитесь

Не упустите интересные проекты, подобные рассмотренному в этой статье. Следите за моими новостями в социальных сетях, подписывайтесь на мою еженедельную рассылку на Substack и присоединяйтесь ко мне в Twitter, Facebook, Instagram и YouTube, чтобы получать ежедневные обновления проектов и увлекательные обсуждения о технологиях. Давайте вместе исследуем захватывающий мир технологий!


Ссылки:

  1. The New York Times хочет, чтобы OpenAI и Microsoft оплатили данные для обучения
  2. OpenAI выпускает патч для устранения утечки данных ChatGPT: проблема полностью исправлена
  3. ИИ в 2023 году: год прорывов, которые не оставили без изменений ни одну вещь, созданную человеком
  4. Попросил DALL-E 3 создать портрет каждого штата США, и результаты были великолепно странные
  5. Работы, которые, скорее всего, будут заняты ИИ
  6. Две новинки сделали 2023 год самым инновационным годом технологий за последнее десятилетие
  7. Gemini: все, что вам следует знать о новой ИИ-модели Google
  8. 7 способов убедиться, что ваши данные готовы для генеративного ИИ