Google Gemini пытается перехитрить ChatGPT с помощью фото и видео искусственного интеллекта

Google Gemini использует фото и видео на основе искусственного интеллекта в попытке обойти ChatGPT

Google начал внедрять использование видео, аудио и фотографий в своем чатботе Bard AI с помощью новой модели под названием Gemini. Владельцы смартфонов Google Pixel 8 будут одними из первых, кто сможет воспользоваться новыми возможностями искусственного интеллекта.

Первые воплощения новой технологии появились в среду в десятках стран в рамках обновления Gemini от Google Bard, но пока только на английском языке. Он может предоставлять возможности текстового чата, которые, по словам Google, улучшают способности в сложных задачах, таких как краткое изложение документов, рассуждения и написание программного кода. Более существенные изменения с мультимедийными возможностями, например, распознавание жестов рук на видео или определение результата рисунка из точки в точку, будут доступны “вскоре”, сообщает Google.

Gemini является резким отступлением в области искусственного интеллекта. Текстовый чат важен, но люди должны обрабатывать гораздо более насыщенную информацию, находясь в нашем трехмерном, постоянно меняющемся мире. И мы отвечаем сложными коммуникационными возможностями, такими как речь и образы, а не только письменными словами. Gemini – это попытка приблизиться к нашему собственному полному пониманию мира.

Google сообщает, что Gemini доступен в трех версиях, адаптированных для разных уровней вычислительной мощности:

  • Gemini Nano работает на мобильных телефонах, доступно два варианта для разных объемов доступной памяти. Он будет использоваться в новых функциях смартфонов Google Pixel 8, таких как краткое изложение разговоров в приложении Recorder или предложение ответов в сообщениях в WhatsApp с использованием клавиатуры Gboard от Google.
  • Gemini Pro, настроен для быстрых ответов, запускается в данных центрах Google и будет использоваться в новой версии Bard, начиная с среды.
  • Gemini Ultra, в настоящий момент доступен только для тестовой группы, станет доступен в новом продвинутом чатботе Bard, ожидаемом в начале 2024 года. Google отказалась сообщать детали о ценах, но следует ожидать доплаты за эту максимальную возможность.

Новая версия подчеркивает стремительный темп развития области генеративного искусственного интеллекта, где чатботы создают собственные ответы на запросы, которые мы пишем на обычном языке, а не на сложных инструкциях программирования. Основным конкурентом Google, OpenAI, опередил компанию с запуском своей модели ChatGPT год назад, но уже на третьей крупной редакции модели искусственного интеллекта Google и планирует предоставлять эту технологию через такие продукты, как поиск, Chrome, Google Docs и Gmail, которыми пользуются миллиарды пользователей.

“Мы уже давно хотели разработать новое поколение моделей искусственного интеллекта, вдохновленных способностью людей понимать и взаимодействовать с миром – таким искусственный интеллект будет больше напоминать полезного сотрудника, а не умную программу”, – говорит Эли Коллинз, вице-президент по продуктам дивизиона DeepMind в Google. “Gemini приближает нас к этой цели”.

OpenAI также поставляет “мозги” за технологией Copilot AI от Microsoft, включая новую модель GPT-4 Turbo AI, которую OpenAI выпустила в ноябре. Как и Google, Microsoft добавляет функции искусственного интеллекта в свои основные продукты, такие как Office и Windows.

Искусственный интеллект становится умнее, но он не идеален

Появление мультимедиа, вероятно, будет большим изменением по сравнению с текстом. Но неизменной остается фундаментальная проблема моделей искусственного интеллекта, обученных на распознавание образцов в огромных объемах реальных данных. Они могут превратить все более сложные запросы в все более утонченные ответы, но вы все равно не можете быть уверены, что они предоставили не просто мнение, которое кажется правдоподобным, а на самом деле является правильным. Как предупреждает чатбот Google при использовании его, “Bard может отображать неточную информацию, в том числе о людях, поэтому дважды проверяйте его ответы”.

Gemini – это следующее поколение большой языковой модели Google, продолжение PaLM и PaLM 2, которые являлись основой Bard до сих пор. Однако, обучая Gemini одновременно на тексте, программном коде, изображениях, аудио и видео, модель способна более эффективно работать с мультимедийными данными, чем раздельные, но взаимосвязанные модели искусственного интеллекта для каждого типа входных данных.

Примеры возможностей “Gemini” согласно исследовательской статье Google, разнообразны.

Рассматривая серию фигур, состоящих из треугольника, квадрата и пятиугольника, она может правильно угадать, что следующая фигура в серии – гексагон. Показанные фотографии луны и руки, держащей гольф-мяч, и заданный вопрос о связи, она правильно указывает, что астронавты Аполло в 1971 году били два гольф-мяча на луне. Она преобразовала четыре столбиковых диаграммы, показывающие технику утилизации отходов по странам, в размеченную таблицу и обнаружила выбивающуюся точку данных, а именно, что США выбрасывают намного больше пластика на свалку, чем другие регионы.

Компания также показала, как “Gemini” обрабатывает рукописную физическую задачу, включающую простой эскиз, определяет, в чем заключается ошибка студента, и объясняет правку. В более сложном демонстрационном видео “Gemini” распознает синюю утку, кукольные фигурки на руке, фокусы с перекладыванием карт и другие видео. Однако ни одна из демонстраций не была прямой трансляцией, и не ясно, как часто “Gemini” терпит неудачи в таких задачах.

Перед появлением “Gemini Ultra” требуется дополнительное тестирование, которое состоится в следующем году.

Происходит “красная командировка”, при которой производитель продукта привлекает людей для поиска уязвимостей безопасности и других проблем для “Gemini Ultra”. Такие тесты становятся более сложными с мультимедийными исходными данными. Например, текстовое сообщение и фотография могут быть невинными по отдельности, но вместе могут передать значительно разный смысл.

“Мы подходим к этой работе смело и ответственно”, – написал генеральный директор Google Сундар Пичаи в своем блоге. Это означает сочетание амбициозных исследований с большим потенциальным выходом, но также добавление защитных мер и сотрудничество с правительствами и другими сторонами “для решения рисков, связанных с увеличивающейся способностью ИИ”.

Примечание редакции: ENBLE использует искусственный интеллект для помощи в создании некоторых новостей. Дополнительные сведения смотрите в этом сообщении.