Google Gemini – настоящий старт генеративного ИИ-бума

Google Gemini - ключевой этап в развитии генеративного искусственного интеллекта

История искусственного интеллекта была прерывана периодами так называемой “зимы искусственного интеллекта”, когда технология, казалось, достигла тупика и финансирование иссякло. Каждый такой период сопровождался заявлениями о том, что создание по-настоящему умных машин слишком сложно для людей.

Выход Gemini от Google, который является фундаментально новой моделью искусственного интеллекта и самым мощным продуктом компании на сегодняшний день, говорит о том, что новая “зима” искусственного интеллекта не наступит в ближайшее время. Фактически, за последний год AI стали “звездным” годом, и есть все основания считать, что текущий бум AI только начинается.

OpenAI в начале не рассчитывала на большие успехи, когда в ноябре 2022 года была запущена “тихая предварительная версия исследований” под названием ChatGPT. Это просто было испытанием нового интерфейса для создания текстовых моделей на основе большого языка (LLMs). Но способность чатбота выполнять такой широкий спектр задач, от синтеза эссе и поэзии до ответов на программные проблемы, впечатлило и настревожило многих людей и подогрело интерес к технологической индустрии. Когда в ChatGPT была добавлена новая LLM-модель GPT-4, некоторые эксперты настолько испугались, что умоляли компанию замедлиться.

Зарегистрируйтесь Сегодня

ENBLE’s Fast Forward newsletterWill Knight

На самом деле, уже было мало доказательств того, что кто-то прислушивается к таким сигналам тревоги. Теперь невообразимо, что Google повышает ставки и, возможно, меняет правила игры, объявив о запуске Gemini.

Ранее в этом году Google уже быстро ответил на ChatGPT, представив Bard, наконец выпустив LLM технологию чатбота, которую они разработали раньше, но решили держать в секрете. С Gemini, компания заявляет, что открывает новую эру, которая выходит за рамки LLM, фокусирующихся преимущественно на тексте, и, вероятно, подготавливает почву для нового раунда AI-продуктов, существенно отличающихся от тех, что осуществимы с помощью ChatGPT.

Google называет Gemini “естественно мультимодельной” моделью, что значит она может учиться не только на основе текста, но также обрабатывать данные из звука, видео и изображений. ChatGPT показывает, как AI-модели могут научиться впечатляющей информации о мире, если им достаточно текста. И некоторые исследователи AI утверждают, что просто увеличение размеров языковых моделей повысит их возможности и позволит соперничать с людьми.

Однако есть ограничения в понимании физической реальности через фильтр текста, написанного людьми, и трудноустранимые ограничения LLM, такие как галлюцинации информации, плохое рассуждение и их странные уязвимости, свидетельствуют о том, что масштабирование существующей технологии имеет свои пределы.

Перед вчерашним анонсом Gemini, ENBLE поговорил с Дэмисом Хассабисом, руководителем команды разработки Gemini, чьими предыдущими достижениями было создание играющего в Го бота AlphaGo. Он предсказуемо восхищен Gemini и утверждает, что она вводит новые возможности, благодаря которым продукты Google в конечном итоге будут выделяться. Но Хассабис также отметил, что чтобы создать AI-системы, способные понимать мир таким образом, как не могут чатботы сегодня, LLM модели нужно сочетать с другими техниками искусственного интеллекта.

Hassabis вступает в агрессивную конкуренцию с OpenAI, но соперники, кажется, согласны, что требуются радикально новые подходы. Таинственный проект, названный Q*, который находится в разработке в OpenAI, предполагает, что компания также исследует идеи, включающие не только масштабирование систем, подобных GPT-4.

Это соответствует замечаниям, сделанным в апреле генеральным директором OpenAI Сэмом Альтманом в MIT, когда он ясно выразил, что несмотря на успех ChatGPT, области искусственного интеллекта требуется новая крупная идея, чтобы добиться значительного прогресса. «Я думаю, что мы находимся на конец эпохи, когда это будут огромные, огромные модели», – сказал Альтман. «Мы сделаем их лучше другими способами».

Google, возможно, только что продемонстрировал подход, который может превзойти ChatGPT. Но, быть может, самое заметное сообщение от запуска Gemini состоит в том, что Google нацелен на более значимые результаты, чем текущие чат-боты – точно так же, как и OpenAI.