Google только что запустил Gemini, долгожданный ответ на ChatGPT.

Google только что запустил Gemini, платформу, которую долго ждали в ответ на ChatGPT.

Все больше говорят о развитии искусственного интеллекта с потенциально опасной скоростью, но это не замедляет ход событий. Год спустя после запуска OpenAI ChatGPT и начала новой гонки в разработке AI-технологий, Google сегодня представил AI-проект с целью возрождения данного поискового гиганта в качестве мирового лидера в области AI.

Gemini, новый тип модели AI, способной работать с текстом, изображениями и видео, может стать самым важным алгоритмом в истории Google после PageRank, который поднял поисковую систему на виду у общественности и создал корпоративного гиганта.

Начальная версия Gemini начинает запускаться сегодня внутри чатбота Bard от Google для англоязычной локализации. Он будет доступен в более чем 170 странах и территориях. Google говорит, что Gemini станет доступен разработчикам через API Google Cloud 13 декабря. Более компактная версия модели сегодня будет использоваться для предложенных ответов в сообщениях на клавиатуре смартфонов Pixel 8. В Gemini появится в других продуктах Google, включая генеративный поиск, рекламу и браузер Chrome в “ближайшие месяцы”, сообщает компания. Самая мощная версия Gemini дебютирует в 2024 году после прохождения “обширных проверок доверия и безопасности”, говорит Google.

“Это большой момент для нас”, – сказал Демис Хассабис, генеральный директор Google DeepMind, перед сегодняшним объявлением. “Мы действительно впечатлены его производительностью и также рады увидеть, что будут делать люди, разрабатывая на его основе”.

Google описывает Gemini как “естественно мультимодальную” модель, потому что она была обучена на изображениях, видео и аудио, а не только на тексте, как это было с большими языковыми моделями, лежащими в основе недавнего подъема генеративного AI. “Это наша самая крупная и наиболее способная модель; она также является наиболее универсальной”, – сказал Эли Коллинз, вице-президент по продукту в Google DeepMind на пресс-конференции, посвященной Gemini.

Вежливо предоставлено Google

В Google говорят, что существует три версии Gemini: Ultra, самая крупная и наиболее способная; Nano, значительно меньшая и более эффективная; и Pro, среднего размера и средних возможностей.

Сегодня чатбот Google Bard, похожий на ChatGPT, будет работать на базе Gemini Pro, смена модели, как утверждает компания, позволит ему оперировать более сложной логикой и планированием. Сегодня специализированная версия Gemini Pro включается в новую версию программного обеспечения AlphaCode, исследовательский продукт для генерации кода от Google DeepMind. Самая мощная версия Gemini, Ultra, будет встроена в Bard и станет доступной с помощью Cloud API в 2024 году.

Сисси Хсиао, вице-президент Google и генеральный менеджер Bard, говорит, что мультимодальные возможности модели позволили Bard изучить новые навыки и стать лучше в таких задачах, как резюмирование контента, генерация идей, письмо и планирование. “Это самые значительные улучшения качества Bard с момента его запуска”, – говорит Хсиао.

Google показал несколько демонстраций, иллюстрирующих способность Gemini справляться с задачами, связанными с визуальной информацией. Один из них позволил модели AI реагировать на видео, в котором кто-то рисовал изображения, создавал простые головоломки и просил идеи игр, связанных с картой мира. Двое исследователей Google также показали, как Gemini может помочь в научных исследованиях, отвечая на вопросы по исследовательской статье с графиками и уравнениями.

Коллинз говорит, что Gemini Pro, модель, которая запускается на этой неделе, превосходит предыдущую модель, которая первоначально питала ChatGPT, называемую GPT-3.5, по шести из восьми широко используемых тестов на интеллект AI-программного обеспечения.

Google говорит, что Gemini Ultra, модель, которая дебютирует в следующем году, занимает 90 процентов, что выше, чем у любой другой модели, включая GPT-4, по бенчмарку Massive Multitask Language Understanding (MMLU), разработанным учеными-академиками для тестирования языковых моделей на вопросы по таким темам, как математика, история США и право.

“Gemini является передовым по широкому спектру бенчмарков – 30 из 32 широко используемых в машинном обучении”, – сказал Коллинз. “И поэтому мы считаем, что он устанавливает рамки во всех областях”.

OpenAI’s GPT-4, который в настоящее время является основой наиболее способной версии ChatGPT, буквально сорвал носки у людей, когда дебютировал в марте этого года. Он также заставил некоторых исследователей пересмотреть свои ожидания относительно того, когда ИИ сможет соперничать с широтой человеческого интеллекта. OpenAI описывает GPT-4 как мультимодальную модель, а в сентябре улучшила работу ChatGPT с изображениями и аудио, но не указывает, была ли основанная на тексте только модель GPT-4 обучена более чем только тексту. ChatGPT также может генерировать изображения с помощью другой модели OpenAI, называемой DALL-E 2.

Как предотвратить следующий сбой OpenAI

Пареш Дэйв

OpenAI согласилась приобрести чипы искусственного интеллекта на 51 миллион долларов у стартапа, подкрепленного генеральным директором Сэмом Альтманом

Пареш Дэйв

Как странная структура OpenAI дала 4 человекам право уволить Сэма Альтмана

Пареш Дэйв

Сегодня Google опубликовала технический отчет, в котором содержатся некоторые подробности о работе Gemini. Он не раскрывает конкретику архитектуры, размеры ИИ-модели или собрание данных, использованных для ее обучения.

Длинный и дорогостоящий процесс обучения больших ИИ-моделей на мощных компьютерных чипах означает, что разработка Gemini, скорее всего, стоила сотни миллионов долларов, говорят эксперты по искусственному интеллекту. Ожидается, что Google разработала новаторский дизайн модели и новую комбинацию обучающих данных. Компания ускорила выпуск своей ИИ-технологии и вкладывает ресурсы в ряд новых ИИ-проектов в попытке заглушить шум вокруг ChatGPT от OpenAI и восстановить себя в качестве ведущей ИИ-компании в мире.

“Мы находимся в своего рода гонке вооружений,” говорит Орен Эциони, профессор эмеритус Университета Вашингтона и бывший генеральный директор Института ИИ Аллена. “Нет причин не верить, что Gemini отработает лучше, чем GPT-4 на этих показателях, но следующая версия, GPT-5, сделает это еще лучше.”

Эциони говорит, что гигантские модели, такие как Gemini, считаются обладающими стоимостью в сотни миллионов долларов, но итоговым призом может стать миллиарды или даже триллионы долларов выручки для компании, которая будет доминировать в области предоставления ИИ через облачную платформу. “Это непримиримая война, которую необходимо выиграть,” – говорит он.

Google изобрел некоторые ключевые техники, используемые в ChatGPT, но был медлен в разработке собственной технологии чатботов до собственного релиза OpenAI примерно год назад, в частности из-за опасения, что она может произносить неприемлемые или даже опасные фразы. Компания утверждает, что провела самое всестороннее тестирование на безопасность с использованием Gemini в связи с более общими возможностями модели.

Gemini был протестирован с использованием набора данных отравляющих модельных подсказок, разработанного Институтом ИИ Аллена. Коллинс говорит, что компания сотрудничает с внешними исследователями для дальнейшего “создания вражеской команды” для модели, чтобы заставить ее вести себя неподобающим образом и обнаружить ее слабые места. Не предоставляя конкретики, Коллинс сказал, что большая мощность Gemini требует от Google “поднять планку по качеству и проверке безопасности, которую нам приходится сделать.”

От успеха нового алгоритма Google и его материнской компании Alphabet многое зависит. За последнее десятилетие они накопили значительные возможности в области искусственного интеллекта. С миллионами разработчиков, использующих алгоритмы OpenAI, и Microsoft, использующий эту технологию для добавления новых функций в свои операционные системы и программное обеспечение для повышения производительности, Google вынуждена пересмотреть свое направление как никогда раньше.

Компания поиска сначала объявила, что работает над Gemini на своей конференции I/O в мае, так как компания пыталась добавить генеративный ИИ в поиск, чтобы предотвратить популярность ChatGPT и угрозу того, что технология OpenAI может усилить поисковую систему Microsoft Bing. Доля Google на мировом рынке поиска по-прежнему превышает 90 процентов, но запуск Gemini, кажется, показывает, что компания продолжает наращивать свою реакцию на ChatGPT.

Google DeepMind, подразделение, которое возглавило разработку Gemini, было создано как часть этой реакции путем объединения основной исследовательской группы Google по ИИ, Google Brain, с базирующимся в Лондоне подразделением Google по ИИ, DeepMind, в апреле. Но проект Gemini привлекал исследователей и инженеров из разных частей Google в последние несколько месяцев. Он использовал недавно обновленную версию специализированных микросхем Google для обучения моделей ИИ, известных как Tensor Processing Units (TPUs).

Название Gemini было выбрано, чтобы отразить удвоение двух основных лабораторий Google по ИИ и в качестве отсылки к проекту NASA Gemini, который подготовил путь к осуществлению лунных посадок программы Apollo.

Алексей Ефрос, профессор Университета Калифорнии в Беркли, специализирующийся в области визуальных возможностей ИИ, считает, что общий подход Google с Gemini обещает быть многообещающим. “Любое использование других модальностей, безусловно, является шагом в правильном направлении”, – говорит он.

Ефрос подозревает, что Gemini, как и GPT-4, все же будет проявлять явные ограничения в своей способности понять сложности реального мира. Но он и другие исследователи вряд ли узнают все, что хотели бы о творении Google. “Это проблема всех этих проприетарных моделей”, – говорит Ефрос. “Мы не знаем, что на самом деле внутри”.