Google Gemini ИИ пытается опередить ChatGPT своими навыками работы с фото и видео.

ИИ Google Gemini стремится превзойти ChatGPT в области обработки изображений и видео.

Google начало внедрять в своего чат-бота Bard AI новую модель под названием Gemini, которая обладает врожденным пониманием видео, аудио и фотографий. Обладатели телефона Google Pixel 8 будут среди первых, кто сможет использовать его новые возможности искусственного интеллекта.

Первые применения новой технологии появились во множестве стран в среду в рамках обновления Google Bard под названием Gemini, но пока только на английском языке. Он может предоставлять возможности чата на основе текста, которые, по словам Google, улучшают возможности искусственного интеллекта в сложных задачах, таких как резюмирование документов, умозаключение и написание программного кода. Более значительные изменения с мультимедийными возможностями, например, понимание жестов рук на видео или определение результата детской головоломки, появятся “вскоре”, – заявила Google.

Смотрите видео:

Gemini – это революционное отклонение от искусственного интеллекта. Текстовый чат важен, но для того, чтобы полноценно взаимодействовать с трехмерным и постоянно меняющимся миром, автоматические системы должны обрабатывать богатую информацию. Мы используем сложные коммуникативные возможности, такие как речь и образы, а не только письменные слова. Gemini – это попытка приблизиться к нашему собственному полному пониманию мира.

Google заявила, что Gemini представлен в трех версиях, адаптированных для разных уровней вычислительной мощности:

  • Gemini Nano работает на мобильных телефонах и доступен в двух версиях, разработанных для разных уровней доступной памяти. Он будет включен в новые функции телефонов Google Pixel 8, такие как резюмирование разговоров в приложении Recorder или предложение ответов в WhatsApp, набранных с помощью клавиатуры Gboard от Google.
  • Gemini Pro, настроенный на быстрые ответы, работает в центрах обработки данных Google и будет использоваться в новой версии Bard, стартующей с среды.
  • Gemini Ultra, в настоящее время ограниченный по численности тестовой группой, станет доступен в новой продвинутой чат-боте Bard, ожидаемом в начале 2024 года. Google отказалась раскрывать детали ценообразования, но следует ожидать, что платежи за эту передовую технологию будут значительными.

Новая версия подчеркивает стремительные темпы развития в области генеративного искусственного интеллекта, где чат-боты создают собственные ответы на запросы, которые мы написали на простой язык, а не в виде закрытых инструкций программирования. Конкуренты Google, OpenAI, опередили его с запуском ChatGPT год назад, но уже Google представляет третью крупную версию своей модели искусственного интеллекта и ожидает внедрения этой технологии в продукты, которыми пользуется миллиарды людей, например, поиск, Chrome, Google Docs и Gmail.

“Мы давно хотели создать новое поколение моделей искусственного интеллекта, вдохновленное способностью людей понимать и взаимодействовать с миром – искусственный интеллект, который бы чувствовался как полезный сотрудник, а не как умное программное обеспечение”, – сказал Эли Коллинс, вице-президент по продукту в подразделении DeepMind компании Google. “Gemini приближает нас к этой цели”.

OpenAI также обеспечивает разработку технологии искусственного интеллекта Copilot, используемую Microsoft, в том числе новую модель GPT-4 Turbo AI, которую OpenAI выпустила в ноябре. Microsoft, как и Google, внедряет возможности искусственного интеллекта в свои основные продукты, такие как Office и Windows.

Искусственный интеллект становится умнее, но не идеален

Вероятно, мультимедиа станет большим изменением по сравнению с текстом, когда оно будет доступно. Но неизменными остаются фундаментальные проблемы моделей искусственного интеллекта, обученных распознавать паттерны в огромных объемах реальных данных. Они могут преобразовывать все более сложные запросы в все более утонченные ответы, но нельзя полностью доверять, что они не предоставят только правдоподобный, а не полностью верный ответ. Как предупреждает чат-бот Google, “Bard может отображать неточную информацию, включая информацию о людях, поэтому всегда проверяйте его ответы”.

Gemini – это следующее поколение крупнейшей языковой модели Google, продолжение PaLM и PaLM 2, которые были основой Bard. Однако, благодаря одновременному обучению Gemini на тексте, программном коде, изображениях, аудио и видео, он способен более эффективно обрабатывать мультимедийный ввод, чем отдельные, связанные модели искусственного интеллекта для каждого режима ввода.

Примеры возможностей Gemini, согласно исследовательской статье Google (PDF), являются разнообразными.

Рассматривая серию фигур, состоящих из треугольника, квадрата и пентагона, она может правильно угадать, что следующая фигура в серии – гексагон. Представив фотографии луны и руки, держащей мяч для гольфа, и спросив о связи между ними, она правильно указывает, что астронавты аполлонов попали по двум мячам для гольфа на луне в 1971 году. Она преобразовала четыре столбцовые диаграммы, показывающие технику утилизации отходов в разных странах, в подписанную таблицу и обнаружила выбивающуюся точку данных, а именно, что США выбрасывает в помойку намного больше пластика, чем другие регионы.

Компания также показала, что Gemini обрабатывает рукописную задачу по физике, включая простой набросок, определяя место ошибки студента и объясняя исправление. В более сложном демонстрационном видеоролике показано, как Gemini распознает синюю утку, ручные куклы, фокусы с перелистыванием карт и другие видео. Однако ни одна из демонстраций не была проведена в прямом эфире, и не ясно, насколько часто Gemini справляется с такими задачами.

На следующий год ожидается появление Gemini Ultra после дополнительного тестирования.

В настоящее время проводится “красный тест” Gemini Ultra, в рамках которого производитель продукта привлекает людей для поиска уязвимостей безопасности и других проблем. Такие тесты становятся более сложными с мультимедийными входными данными. Например, текстовое сообщение и фотография могут быть невинными по отдельности, но при их объединении могут передавать совершенно различное значение.

“Мы подходим к этой работе смело и ответственно”, – заявил генеральный директор Google Сундар Пичаи в своей блог-статье. Это означает сочетание амбициозных исследований с большим потенциалом, но также добавление защитных мер и сотрудничество с правительствами и другими организациями “для решения рисков при увеличении возможностей искусственного интеллекта”.

Примечание редакторов: ENBLE использует искусственный интеллект для помощи в создании некоторых статей. Подробнее можно узнать в этом сообщении.