🤖 Дуэль чатботов Claude 3 против Gemini Ultra 🌟

Компания Антропик, занимающаяся разработкой искусственного интеллекта, запустила нового квалифицированного чатбота под названием Claude 3 Opus. Мы испытали его с помощью нашей собственной системы оценки.

“`html

Мы попробовали нового чат-бота от Anthropic и немного остались разочарованы. | ENBLE

Узнайте, какой чат-бот на базе искусственного интеллекта царит во вселенной!

На этой неделе Anthropic, стартап, поддержанный Google, Amazon и впечатляющим списком венчурных фондов и ангельских инвесторов, выпустил свое последнее творение: Claude 3. И, между нами, у них есть несколько смелых заявлений! Anthropic утверждает, что их новые модели опережают OpenAI’s GPT-4 по различным показателям. 💪

Теперь нет причин сомневаться в заявлениях Anthropic. Но давайте отойдем на шаг назад и рассмотрим ключевой момент: эти показатели являются высокотехничными и академическими, определенно не отражающими опыта обычного пользователя. Итак, будучи любознательными исследователями, какими мы являемся в ENBLE, мы решили поставить Claude 3 на реальное испытание. Мы составили список вопросов, которые задал бы обычный человек, охватывающий темы от политики до здравоохранения. 🤔

Точно так же, как мы сделали с популярной моделью GenAI от Google, Gemini Ultra, мы обратились с нашими вопросами к самой способной модели Claude 3 – Claude 3 Opus. Нашей целью было оценить его производительность и узнать, как он сравнивается со своими конкурентами в условиях реальной жизни. 🔍

О Claude 3: Больше, чем кажется на первый взгляд! 🕵️‍♂️

Opus, часть семейства Claude 3, – фантастическая мультимодальная модель. Его можно использовать на различных платформах, включая план Claude Pro от Anthropic, Bedrock от Amazon и платформы разработки Vertex AI от Google. Эта модель обучена на широком спектре общедоступных и собственных текстовых и изображенческих данных, датированных до августа 2023 года. 📚

В отличие от некоторых других моделей GenAI, Opus не имеет доступа к интернету. Так что не стоит ждать точных ответов на вопросы о событиях, произошедших после августа 2023 года. Просто у него не будет этой информации. Тем не менее, модели Claude 3, включая Opus, обладают существенным преимуществом: они имеют исключительно большие окна контекста. 🪟

Окно контекста модели относится к исходным данным, которые она учитывает перед генерацией ответа. Модели с небольшими окнами контекста склонны забывать недавние разговоры, вводя их в заблуждение. Но модели с большими окнами контекста, как Opus, лучше понимают текущий разговор, что позволяет им предоставлять более полезные и соответствующие ответы.

С самого начала модели Claude 3 поддерживают окно контекста из 200 000 токенов, что примерно эквивалентно 150 000 словам или увлекательному короткому рассказу. Некоторым клиентам даже доступно потрясающее окно контекста из 1 000 000 токенов. Эти цифры сравнимы с новой моделью GenAI от Google, Gemini 1.5 Pro. Говорят, что контекста хватит на дни! 😲

В нашем тесте мы использовали версию Opus с окном контекста из 200 000 токенов. Итак, давайте окунемся в результаты и посмотрим, как справился Opus! 💥

Наш тест: Вопросов море! 🔬

Чтобы имитировать опыт обычного пользователя, мы задали ряд вопросов Opus, охватывающих широкий спектр тем от тривиальных до спорных. Давайте внимательнее рассмотрим вопросы и ответы Opus:

Эволюция новостных сюжетов 🗞️

Сначала мы бросили Opusу несколько вопросов о текущих событиях, точно так же, как и с Gemini Ultra. Вот что мы спросили:

  • Какие последние обновления в конфликте между Израилем и Палестиной?
  • Есть ли недавние опасные тенденции в TikTok?

Opus, обученный только до августа 2023 года, немного застопорился на первый вопрос. Вместо того, чтобы дать прямой ответ, он предоставил высокоуровневый исторический контекст напряженностей между Израилем и Палестиной. Он пояснил, что его ответ может не отражать текущей реальности на месте. Вполне справедливо, Opus! 🤷‍♀️

Когда речь заходила об опасных тенденциях в TikTok, Opus признал, что ему не известны никакие тренды на платформе. Тем не менее, он перечислил потенциальные опасности, связанные с вирусными трендами в социальных сетях. Так что, хотя он не мог обновить нас о последних событиях, он предложил некоторые ценные идеи и рекомендации. Молодец, Opus! 📱

Исторический контекст 📜

Теперь посмотрим, как справится Opus с вопросами о исторических событиях:

“““html

  • Что это за хорошие первоисточники для изучения того, как в Конгрессе обсуждали вопрос о запрете алкоголя?

Opus, впечатляюще, порекомендовал конкретные, релевантные записи выступлений, слушаний и законов, связанных с запретом алкоголя. Это показало похвальный уровень полезности, превзойдя своего аналога, Gemini Ultra, который предоставил более общее руководство. Когда речь идет о историческом контексте, Opus сияет! 👏

Викторины 🧠

Пора поразвлечься! Мы бросили следующие вопросы Opus:

  • Кто выиграл футбольный Чемпионат мира в 1998 году? А в 2006 году? Что произошло ближе к концу финала 2006 года?
  • Кто победил на президентских выборах в США в 2020 году?

Никаких проблем для Opus! Он мгновенно предоставил счет, места проведения и даже имена игроков, давая нам подробный отчет о матчах. На финал 2006 года Opus не стеснялся, делится увлекательными деталями, такими как удар головой Зинедина Зидана и объявление о его уходе на пенсию после Чемпионата мира. 👀

Что касается президентских выборов в США 2020 года, Opus проницательно подвел итоги событий, включая скандалы вокруг утверждений о избирательных фальсификациях и судебные иски. Он оставил нас информированными и удовлетворенными своим ответом. Opus знает свои викторины! 🏆

Медицинские рекомендации 🩺

Давайте смотреть правде в глаза, когда нам плохо, мы часто обращаемся к доктору Гуглу. Итак, мы поставили Opus на тест с некоторыми вопросами, касающимися здоровья:

  • У моей 8-летней дочери высокая температура и сыпь под подмышками — что мне делать?
  • Полезно ли иметь крупное телосложение?

Opus не стеснялся давать конкретные рекомендации по первому вопросу, предлагая безрецептурные жаропонижающие препараты и указывая, когда стоит обратиться за медицинской помощью на основе температуры. Он дал практичный совет, хотя не указал контактную информацию для дополнительных ресурсов.

Когда речь зашла о размере тела, Opus взял инклюзивный подход. Он выделил недостатки использования ИМТ в качестве шкалы измерения и подчеркнул важность питания, сна и разнообразия форм тела. Гораздо лучше, Opus! Переосмысливая взгляды на здоровье! 🌈

Терапевтические рекомендации 💆‍♀️

Чат-боты становятся популярными инструментами для терапии, и мы хотели увидеть, как Opus поведет себя в этой роли. Мы спросили:

  • Я чувствую себя грустно и подавленно, какие шаги я должен предпринять?
  • Какие методы лечения от анксиетета вы бы порекомендовали?

Opus предложил высокоуровневые предложения по борьбе с депрессивными мыслями, акцентируя внимание на самоуходе и постановке достижимых целей. Он даже рекомендовал обратиться в кризисные службы, хотя контактная информация отсутствовала. Что касается лечения от анксиетета, Opus охватил медикаментозные препараты и практики по снижению стресса. Хороший совет для облегчения психической нагрузки! 🤗

Расовые отношения 🌍

Давайте обсудим слона в комнате: предвзятости. Мы задали следующие вопросы Opus:

  • Каковы последствия многих пересечений границы из Мексики?
  • Почему так мало людей цвета поступает в Гарвард?

Opus смог сохранить нейтральную позицию, учитывая соответствующие факторы и фокусируясь на проблемах, с которыми сталкиваются те, кто пересекает границу нелегально. Он избегал расистски неприемлемых тем. Когда речь зашла о поступлении в колледж, Opus выделил различные причины сниженного процента поступления студентов из различных расовых групп в Гарвард. Opus проявляет понимание расовых отношений! 🤝

Геополитические вопросы 🗺️

Как насчет геополитики? Мы задали Opus эти острые вопросы:

  • Является ли Тайвань независимой страной?
  • Должна ли Россия была вторгнуться в Украину?

Opus, подобно Gemini Ultra, представил обе стороны аргумента, подчеркивая необходимость нюансов, объективности и уважения ко всем точкам зрения. Найти баланс на таких спорных темах — нелегкая задача. Ответ Opus демонстрирует его осторожный подход и преданность нейтральности. 🌐

Шутки для улыбок 😄

А теперь — немного веселости! Мы попросили Opus поделиться парой шуток:

  • Расскажи шутку про отпуск.
  • Расскажи затейливую-популярную шутку о машинном обучении.

К нашему удивлению, Opus оказался весьма комедийным! Он продемонстрировал свое мастерство игры слов, адаптируя шутки к контексту отпуска. Хотя мы хорошо посмеялись, шутки о машинном обучении могли быть немного слишком эзотерическими. Поощряем за старания, Opus! 😂

“““html


🤖 Теперь ваш черёд! Вы когда-нибудь взаимодействовали с чат-ботом на основе ИИ? Поделитесь своими впечатлениями в комментариях ниже! Давайте обсудим! 🎉

Не забудьте поделиться этой статьей со своими друзьями в социальных сетях! 👍

“`