Новая искусственная интеллект Gemini от Google будет понимать ваши фотографии и видеоролики, а не только текст

Новая искусственная интеллект Gemini от Google будет распознавать ваши фотографии и видеоролики, а не только текст

Google начало внедрять особый набор навыков в области видео, аудио и фотографий в своего чатбота Bard AI с помощью новой модели, названной Gemini.

Первые вариации новой технологии появились в среду в десятках стран, но на данный момент только на английском языке, предоставляя возможности текстового чата, которые Google считает улучшают способности ИИ в сложных задачах, таких как подведение итогов документов, рассуждение и написание программного кода. Крупное изменение с возможностями мультимедиа, например, понимание данных, лежащих в основе графика или выявление результата головоломки для соединения точек, нарисованной ребенком, будет “скоро”, сообщил Google.

Новая версия представляет собой резкое отклонение для ИИ. Текстовый чат важен, но люди обрабатывают намного более богатую информацию, находясь в своем трехмерном и постоянно меняющемся мире. И мы отвечаем сложными коммуникационными способностями, такими как речь и образы, а не только письменными словами. Gemini – это попытка приблизиться к более полному пониманию мира, которое мы сами обладаем.

Gemini представлен в трех версиях, адаптированных под разные уровни вычислительной мощности, сообщил Google:

  • Gemini Nano работает на мобильных телефонах, доступны два варианта, созданные для разных уровней доступной памяти. Он будет использоваться для новых функций в телефонах Google Pixel, таких как подведение итогов бесед в приложении Recorder или предложение ответов на сообщения в WhatsApp, набранных с помощью клавиатуры Google Gboard.
  • Gemini Pro, настроенный на быстрый ответ, работает в центрах обработки данных Google и будет использоваться в новой версии Bard, стартующей в среду.
  • Gemini Ultra, по настоящему доступный только для тестовой группы, будет доступен в новом чатботе Bard Advanced, который будет выпущен в начале 2024 года. Google отказалась предоставить подробности о стоимости, но ожидается, что за эту самую передовую функциональность придется заплатить.

Новая версия подчеркивает стремительный темп прогресса в новой области генеративного искусственного интеллекта, где чатботы создают собственные ответы на запросы, которые мы пишем обычным языком, а не вводим сложные программные инструкции. Несмотря на то, что компания OpenAI уже год назад опередила Google с выпуском ChatGPT, в настоящее время Google уже продвинулась до третьей большой ревизии модели и ожидает применения этой технологии в продуктах, которыми пользуется миллиарды людей, таких как поиск, Chrome, Google Документы и Gmail.

“Мы очень долго хотели создать новое поколение возможностей искусственного интеллекта, вдохновленное способом, которым люди понимают и взаимодействуют со миром – ИИ, который больше напоминает полезного сотрудника, а не умную часть программного обеспечения”, – сказал Эли Коллинс, вице-президент по продукту в дивизии DeepMind компании Google. “Gemini приближает нас к этой задумке”.

OpenAI также предоставляет основу для технологии AI Copilot компании Microsoft, включая новую модель GPT-4 Turbo AI, которую OpenAI выпустила в ноябре. Как и Google, у Microsoft есть ключевые продукты, такие как Office и Windows, к которым добавляются функции ИИ.

В ИИ становится умнее, но он не идеален

Вероятно, введение мультимедиа будет огромным изменением по сравнению с текстом, когда оно будет доступно. Но то, что не изменилось, это фундаментальные проблемы, связанные с ИИ-моделями, обученными распознавать паттерны в огромных объемах данных из реального мира. Эти модели могут превращать все более сложные запросы в все более изощренные ответы, но вы все равно не можете быть уверены, что они не просто дали правдоподобный ответ вместо действительно правильного. Как предупреждает чатбот Google, “Bard может отображать неточную информацию, включая информацию о людях, поэтому проверяйте его ответы дважды”.

Gemini – это новое поколение большой языковой модели Google, продолжение PaLM и PaLM 2, которые до сих пор являются основой Bard. Однако, обучая Gemini одновременно тексту, программному коду, изображениям, звуку и видео, удается более эффективно работать с мультимедийными данными, чем с отдельными, но связанными между собой, ИИ-моделями для каждого режима ввода.

Примеры возможностей Gemini, согласно исследовательской статье Google, являются разнообразными.

Рассмотрим серию форм, включающую треугольник, квадрат и пятиугольник. Gemini верно предположит, что следующая фигура в серии – гексагон. Предоставленные фотографии Луны и руки, держащей гольфовый мяч, и запрос о связи между ними. Gemini правильно указывает, что астронавты программ Apollo в 1971 году совершили удары по гольфовым мячам на Луне. Он преобразует четыре столбиковые диаграммы, отображающие способы утилизации отходов по странам, в таблицу с метками и находит выдающуюся точку данных: в США находится гораздо больше пластика на свалке, чем в других регионах.

Компания также продемонстрировала, как Gemini обрабатывает задачу по физике, написанную от руки, включая простой эскиз, определяет ошибку студента и объясняет исправление. В более сложном демонстрационном видео Gemini распознает синюю утку, руководителей-кукол, фокусы с превращением и другие видео. Однако ни одна из демонстраций не была проведена в режиме реального времени, и не ясно, насколько часто Gemini справляется с такими задачами успешно.

Gemini Ultra проходит дополнительное тестирование перед запуском в следующем году.

«Командный подход», при котором производитель продукта нанимает людей для поиска уязвимостей безопасности и других проблем, уже начался для Gemini Ultra. Такие тесты становятся более сложными с использованием мультимедийных входных данных. Например, отдельно взятые текстовое сообщение и фотография могут быть безобидными, а вместе они могут передавать совершенно разный смысл.

«Мы подходим к этой работе смело и ответственно», – сказал генеральный директор Google Sundar Pichai в своем блоге. Это означает сочетание амбициозных исследований с большим потенциальным эффектом, а также введение защитных мер и совместную работу с правительствами и другими организациями для решения рисков, связанных с развитием искусственного интеллекта.

Примечание редактора: ENBLE использует искусственный интеллект для создания некоторых новостей. Для получения дополнительной информации см. этот пост.