Google Gemini AI пытается обойти ChatGPT с помощью фотографий и видео

Google Gemini AI усиливает свои возможности с помощью фотографий и видео в борьбе с ChatGPT

“`html

Google начал придавать своему чат-боту Bard AI понимание видео, аудио и фотографий с помощью новой модели искусственного интеллекта под названием Gemini. Владельцы телефонов Google Pixel 8 будут первыми, кто сможет воспользоваться его новыми возможностями искусственного интеллекта, но Gemini появится в Gmail и других инструментах Google Workspace в начале 2024 года.

Жители десятков стран получили доступ к Gemini в начале декабря с обновлением чат-бота Bard, но только на английском языке. Он может предоставлять возможности чата на основе текста, которые, по словам Google, улучшают возможности искусственного интеллекта в сложных задачах, таких как резюмирование документов, логическое мышление, планирование и написание программного кода. Более значительные изменения с функциями мультимедиа – например, понимание жестов рук на видео или распознавание результата графической головоломки для рисования по точкам ребенка – появятся “вскоре”, заявил Google.

Посмотрите это:

Новая версия подчеркивает стремительный темп развития в области новых генеративных моделей искусственного интеллекта, в которых чат-боты создают собственные ответы на наши запросы, написанные простым языком, а не сложными инструкциями программирования. Главный конкурент Google, OpenAI, опередил Google с запуском ChatGPT год назад, но Gemini – третья крупная переделка модели искусственного интеллекта Google, которая ожидает представить эту технологию через продукты, которыми пользуются миллиарды людей, такие как поиск, Chrome, Google Docs и Gmail.

В среду Google также представил Gemini разработчикам, ключевому сообществу людей, которые могут интегрировать эту технологию в свои собственные программы. Это можно сделать через базовый веб-интерфейс Google AI Studio или более сложный Vertex AI. И для использования сверх бесплатной нормы были снижены цены в два-четыре раза. Это может помочь побудить разработчиков, увлеченных интерфейсом программирования OpenAI, хотя бы опробовать Gemini.

Привлекая разработчиков, Google более вероятно распространит Gemini на программные инструменты, которые эти программисты создают для вас. Google также внедряет Gemini в собственные службы, в частности, в помощника Duet AI в Gmail, Google Docs, Meet и других частях Google Workspace.

“Duet AI для рабочего пространства перейдет к Gemini в самом начале 2024 года”, – сказал Томас Кариан, генеральный директор подразделения Google Cloud. Это может помочь вам превратить рукописный рисунок самолета в фотореалистичную версию для презентации в Google Slides, например, или в Google Meet позволит лучше понять видеоконференцию, включающую слайды на не родном языке. “Многофункциональное понимание Gemini позволяет делать гораздо более содержательные резюме встреч”, – сказал он.

Gemini является революционным прорывом в области искусственного интеллекта. Текстовый чат важен, но люди должны обрабатывать гораздо более содержательную информацию, обитая в трехмерном и постоянно меняющемся мире. И мы взаимодействуем с помощью сложных коммуникационных способностей, таких как речь и образы, а не только с помощью письменных слов. Gemini – это попытка приблизиться к более полному пониманию нашего собственного мира.

Gemini доступен в трех версиях, специально разработанных для различных уровней вычислительной мощности, сообщает Google:

  • Gemini Nano работает на мобильных телефонах, существуют две разновидности, созданные для разных уровней доступной памяти. Он будет обеспечивать новые функции телефонов Google Pixel 8, такие как резюмирование бесед в его приложении Recorder или предлагать варианты ответов на сообщения в WhatsApp, введенные с помощью клавиатуры Gboard от Google.
  • Gemini Pro, настроенный на быстрые ответы, работает в данных центрах Google и будет поддерживать новую версию Bard с среды.
  • Gemini Ultra, в настоящее время доступный только ограниченной тестовой группе, станет доступен в новом расширенном чат-боте Bard в начале 2024 года. Google не сообщил деталей о ценах, но следует ожидать, что за эту высшую функциональность потребуется платить дополнительно.

“Мы долго хотели создать новое поколение моделей искусственного интеллекта, вдохновленных тем, как люди понимают и взаимодействуют с миром – искусственный интеллект, который больше напоминает полезного сотрудника, а не умный программный продукт”, – сказал Эли Коллинс, вице-президент продукта в подразделении DeepMind Google. – “Gemini приближает нас к этой цели”.

“`

OpenAI также поставляет “мозги” за технологией искусственного интеллекта Copilot от Microsoft, включая новейшую модель искусственного интеллекта GPT-4 Turbo, которую OpenAI выпустила в ноябре. У Microsoft, подобно Google, есть такие крупные продукты, как Office и Windows, к которым добавляются функции искусственного интеллекта.

Искусственный интеллект становится умнее, но не безупречен

Введение мультимедиа, вероятно, будет большим изменением по сравнению с текстом, когда оно появится. Но не изменились основные проблемы моделей искусственного интеллекта, обученных распознавать шаблоны в огромных объемах реальных данных. Они могут превращать все более сложные запросы в все более искусные ответы, но все равно нельзя доверять, что они не просто дали ответ, который кажется правдоподобным, а на самом деле правильным. Как предупреждает чат-бот Google при его использовании, “Bard может отображать неточную информацию, включая информацию о людях, поэтому всегда проверяйте его ответы”.

Gemini является следующим поколением крупной модели языка Google, продолжением PaLM и PaLM 2, которые были основой Bard до сих пор. Но, обучая Gemini одновременно тексту, программному коду, изображениям, звукам и видео, удается более эффективно работать с мультимедийными данными, чем с отдельными, но взаимосвязанными моделями искусственного интеллекта для каждого типа ввода.

Примеры возможностей Gemini, согласно научной статье Google (в формате PDF), весьма разнообразны.

При рассмотрении серии фигур, состоящей из треугольника, квадрата и пятиугольника, она может правильно предположить, что следующая фигура в серии – это шестиугольник. Представив фотографии Луны и руки, держащей гольфовый мяч, и попросив найти связь между ними, она правильно указывает на то, что астронавты Аполло в 1971 году били два гольфовых мяча на Луне. Она преобразовала четыре столбчатые диаграммы, показывающие методы утилизации отходов в разных странах, в подписанную таблицу и обнаружила выделяющуюся точку данных, а именно, что США выбрасывают намного больше пластика на свалку, чем другие регионы.

Компания также показала, как Gemini обрабатывает написанную задачу по физике, включающую простой набросок, рассмотрев на каком этапе произошла ошибка студента, и объяснив ее исправление. В более сложном видео-демонстрации Gemini распознает синего утенка, руководящие куклы, хорошорукост, а также другие видео. Однако ни одна из демонстраций не была проведена в режиме реального времени, и не ясно, как часто Gemini может справляться с такими вызовами.

Было ли поддельным видео Gemini от Google?

Google представила Gemini в демонстрационном видео, в котором он утверждает, что распознает жесты рук, следует за фокусами и упорядочивает фотографии планет в порядке удаленности от Солнца – все по визуальным данным. Однако следует рассматривать это как драматизацию настоящих возможностей Gemini.

Не редко видео-ролики рекламируют продукты более привлекательными, чем они есть на самом деле. В данном случае вы можете подумать, что Gemini обрабатывает видео-данные и устные инструкции. Google включил небольшой текст: отказ от ответа в видео о том, что Gemini реагирует не так быстро, и ссылку в описании видео на обсуждение того, как на самом деле работает демо Gemini от Google. Однако, возможно, вы этого не заметили. Google также опубликовал запись в X, ранее Twitter, в которой показано, насколько быстро Gemini реагирует на действия.

Тем не менее, видео в основном не искажает возможности Gemini, хотя сторонники в основном не имеют возможности его протестировать. Он может принимать устные и видео-данные.

Gemini Ultra появится в 2024 году

Gemini Ultra ждет дальнейшего тестирования перед появлением в следующем году.

“Red teaming”, когда производитель продукта привлекает людей для поиска уязвимостей безопасности и других проблем, проходит для Gemini Ultra. Тесты с мультимедийными входными данными более сложны. Например, текстовое сообщение и фотография могут быть невинными по отдельности, но вместе могут нести совершенно различное значение.

“Мы подходим к этой работе с смелостью и ответственностью”, – сказал генеральный директор Google Сундар Пичаи в блоге. Это означает комбинацию амбициозных исследований с большим потенциальным эффектом, но также добавление мер безопасности и совместная работа с правительствами и другими организациями “для учета рисков при увеличении возможностей искусственного интеллекта”.

Примечание редактора: ENBLE использует искусственный интеллект для создания некоторых историй. Более подробно см. статью здесь.