Демис Хассабис из Google DeepMind говорит, что Gemini – это новый вид искусственного интеллекта

Демис Хассабис из Google DeepMind отмечает, что Gemini представляет собой инновационный тип искусственного интеллекта

Демис Хассабис никогда не стеснялся провозглашать большие прорывы в искусственном интеллекте. Прежде всего, он стал известен в 2016 году, когда бот под названием AlphaGo научился играть в сложную и тонкую настольную игру Го с сверхчеловеческими навыками и остроумием.

Сегодня Хассабис говорит, что его команда в Google сделала еще больший шаг вперед – для него, компании и, надеюсь, для широкой области искусственного интеллекта. Гемини, модель искусственного интеллекта, анонсированная Google сегодня, он говорит, открывает нераспаханный путь в области искусственного интеллекта, который может привести к значительным новым прорывам.

«Я, будучи нейрофизиологом и компьютерным ученым, много лет хотел попытаться создать своего рода новое поколение моделей искусственного интеллекта, вдохновленных тем, как мы взаимодействуем и понимаем мир через все наши чувства», – сказал Хассабис ENBLE накануне сегодняшнего анонса. Гемини – «большой шаг в сторону такой модели», – говорит он. Google описывает Гемини как «мультимодальную», потому что она может обрабатывать информацию в виде текста, звука, изображений и видео.

Первая версия Гемини будет доступна через чат-бота Bard от Google уже сегодня. Компания говорит, что самая мощная версия модели, Гемини Ультра, будет выпущена в следующем году и превосходит GPT-4, модель, стоящую за ChatGPT, по нескольким общим показателям. Видеоролики, опубликованные Google, показывают, как Гемини решает задачи, связанные с сложным рассуждением, а также примеры модели, комбинирующей информацию из текста, изображений, аудио и видео.

«До сих пор большинство моделей, по сути, приближали мультимодальность путем обучения отдельных модулей, а затем их объединения», – говорит Хассабис, являющийся, по-видимому, намеком на технологию OpenAI. «Это нормально для некоторых задач, но нельзя осуществлять такое глубокое сложное рассуждение в мультимодальном пространстве».

В сентябре OpenAI выпустила обновленную версию ChatGPT, которая позволила чат-боту принимать в качестве входных данных изображения и звук в дополнение к тексту. OpenAI не разглашала технические детали о том, как GPT-4 это делает или техническую основу его мультимодальных возможностей.

Google разработала и запустила Гемини с поразительной скоростью по сравнению с предыдущими проектами искусственного интеллекта в компании, обусловленной недавней обеспокоенностью по поводу угрозы, которую могут представлять разработки со стороны OpenAI и других компаний для будущего Google.

В конце 2022 года Google был признан лидером в области искусственного интеллекта среди крупных технологических компаний, с штабами искусственного интеллекта, вносящими значительный вклад в данную область. Директор Sundar Pichai объявил стратегию компании как «AI-первый», и Google успешно добавил искусственный интеллект во многие свои продукты, от поиска до смартфонов.

Как остановить другой “сбой” OpenAI

Пареш Даве

OpenAI согласилась приобрести AI-чипы на 51 млн долларов у стартапа, поддерживаемого гендиректором Сэмом Альтманом

Пареш Даве

Как аномальная структура OpenAI дала 4-м людям возможность уволить Сэма Альтмана

Пареш Даве

Сразу после запуска OpenAI необычного стартапа с меньше чем 800 сотрудниками Google перестал считаться первым в области искусственного интеллекта. Способность ChatGPT отвечать на вопросы любого рода со сообразительностью, которая может показаться сверхчеловеческой, вызывала возможность того, что знаменитый поисковик Google мог покинуть свои позиции, особенно когда Microsoft, инвестор в OpenAI, внедрил подходящую технологию в свой поисковик Bing.

Ошеломленный действиями Google, я спешил запустить конкурента ChatGPT, Bard, переосмыслить свою поисковую систему и торопливо выпустить новую модель, PaLM 2, чтобы конкурировать с той же моделью, что и ChatGPT. Хассабис переводится из руководителя созданной в Лондоне лаборатории искусственного интеллекта, приобретенной Google его стартапом DeepMind, в руководителя нового отдела искусственного интеллекта, объединяющего его команду с основной исследовательской группой Google по искусственному интеллекту, Google Brain. В мае на конференции разработчиков Google, I/O, Пичай объявил, что они обучают новую, более мощную модель с названием Gemini, которая является преемником PaLM. Тогда он не говорил о том, но проект получил название в честь слияния двух основных лабораторий искусственного интеллекта Google, а также в честь проекта NASA, Gemini, который прокладывал путь к посадке на Луну.

Примерно через семь месяцев Gemini наконец-то здесь. Хассабис говорит, что возможность этой новой модели обрабатывать разные формы данных, включая текст и не только, была ключевой частью задумки проекта с самого начала. Многие исследователи искусственного интеллекта считают, что способность использовать данные разных форматов является важной способностью естественного интеллекта, которая в основном отсутствует у машин.

Большие языковые модели, такие как ChatGPT, получают свою гибкость и мощность благодаря алгоритмам, которые обучаются на огромных объемах текстовых данных из сети и других источников. Они могут отвечать на вопросы и порождать стихи и замечательные литературные пастушки, переигрывая и переделывая изученные в процессе обучения паттерны данных (иногда добавляя “галлюцинации” фактов).

Однако, хотя ChatGPT и подобные чат-боты могут использовать тот же трюк для обсуждения и отвечания на вопросы о реальном мире, эта кажущаяся осведомленность может быстро рассеяться. Многие эксперты в области искусственного интеллекта считают, что для значительного прогресса машинного интеллекта потребуются системы, имеющие некоторую форму “уземления” в физической реальности, возможно, путем комбинирования языковой модели с программным обеспечением, которое также может видеть, слышать и, возможно, в конечном итоге, осязать.

Хассабис говорит, что Google DeepMind уже исследует, как Gemini может быть совмещен с робототехникой для физического взаимодействия с миром. “Чтобы стать по-настоящему мультимодальным, вы захотите включить осязание и тактильную обратную связь”, – говорит он. “Это область с большим потенциалом для применения этих моделей-основ в робототехнике, и мы активно исследуем ее”.

Google уже сделал несколько первых шагов в этом направлении. В мае 2022 года компания объявила о создании модели искусственного интеллекта с названием Gato, способной научиться выполнять широкий спектр задач, включая игры Atari, подписывание изображений и использование робототехники для укладки блоков. В июле Google продемонстрировал проект под названием RT-2, включающий использование языковых моделей для помощи роботам понимать и выполнять действия.

Хассабис говорит, что модели, лучше способные рассуждать о визуальной информации, должны также быть более полезными в качестве программных агентов, или ботов, которые пытаются делать разные вещи, используя компьютер и Интернет, подобно человеку. OpenAI и другие уже пытаются адаптировать ChatGPT и подобные системы в новое поколение гораздо более способных и полезных виртуальных ассистентов, но они пока ненадежны.

Чтобы агенты искусственного интеллекта работали надежно, алгоритмы, которые их питают, должны быть намного умнее. OpenAI работает над проектом под названием Q*, который призван улучшить алгоритмы рассуждения моделей искусственного интеллекта, возможно, с использованием методики обучения с подкреплением, которая лежит в основе AlphaGo. Хассабис говорит, что его компания проводит исследования похожего характера.

“У нас есть некоторые из лучших специалистов по обучению с подкреплением в мире, которые изобрели некоторые из этих вещей”, – говорит он. Прогресс, достигнутый в проекте AlphaGo, надеются, поможет улучшить планирование и рассуждение в будущих моделях, подобных той, которая была запущена сегодня. “У нас есть интересные инновации, над которыми мы работаем, чтобы привнести их в будущие версии Gemini. Вы увидите много быстрого развития в следующем году”.

С участием Google, OpenAI и других гигантов технологической отрасли, которые соревнуются в ускорении темпов своего искусственного интеллекта и его внедрения, споры о рисках, которые могут возникнуть у существующих и будущих моделей, становятся все громче. И это касается не только обычных людей, но даже глав государств. Хассабис участвовал в инициативе, запущенной правительством Великобритании ранее в этом году, которая привела к объявлению о потенциальных опасностях искусственного интеллекта и требовала дальнейшего исследования и обсуждения. Напряженность вокруг скорости коммерциализации искусственного интеллекта OpenAI, по-видимому, сыграла свою роль в недавней драме в руководстве компании, когда генеральный директор Сэм Альтман был кратковременно отстранен от должности.

Хассабис говорит, что задолго до того, как Google приобрел DeepMind в 2014 году, он и его сооснователи Шейн Лэгг и Мустафа Сулейман уже обсуждали способы исследования и снижения возможных рисков. “У нас есть одни из лучших команд в мире, которые ищут предвзятость, токсичность и другие аспекты безопасности”, – говорит он.

Даже когда Google запускает первую версию Gemini сегодня, продолжается работа по проверке безопасности самой мощной версии Ultra, ожидаемой в следующем году. “Мы фактически завершаем эти проверки и балансы, тесты безопасности и отвественности”, – говорит Хассабис. “Затем мы выпустим ее в начале следующего года”.