Google Assistant наконец получает генеративное AI обновление

Google Assistant получает генеративное AI обновление.

Google сделал большой шаг, когда в мае запустил свою генеративную искусственную интеллектуальную атаку против ChatGPT от OpenAI. Компания добавила генерацию текста с помощью ИИ в свой поисковик, продемонстрировала настроенную на ИИ версию операционной системы Android и предложила своего собственного чат-бота, Bard. Но один продукт Google не получил генеративное обновление на основе искусственного интеллекта: Google Assistant, ответ компании на Siri и Alexa.

Сегодня, на своем мероприятии по аппаратному обеспечению Pixel в Нью-Йорке, Google Assistant наконец получил обновление для эры ChatGPT. Сисси Хсиао, вице-президент и генеральный менеджер Google Assistant, представила новую версию помощника, являющуюся смесью Google Assistant и Bard.

Хсиао говорит, что Google видит этого нового “мультимодального” помощника как инструмент, который выходит за рамки простых голосовых запросов, включая также обработку изображений. Он может обрабатывать “крупные и маленькие задачи со списка дел, все, начиная от планирования новой поездки и резюмирования вашего почтового ящика, заканчивая написанием интересной подписи для фотографий в социальных сетях”, – сказала она в интервью ENBLE на прошлой неделе.

По снабжению Google

Новый опыт генеративного искусственного интеллекта настолько ранний, что Хсиао сказала, что он еще не квалифицируется как “приложение”. Когда ее попросили предоставить больше информации о том, как это может появиться на телефоне пользователя, представители компании в целом были неясны в отношении окончательной формы. (Возможно, Google спешила с анонсом, чтобы совпасть с мероприятием по аппаратному обеспечению?)

Как бы то ни было, Bard-ифицированный Google Assistant будет использовать генеративный искусственный интеллект для обработки текстовых, голосовых или изображений запросов и отвечать соответствующим образом, как текстом, так и голосом. Он будет доступен только для одобренных пользователей на неопределенное время, будет работать только на мобильных устройствах, не на умных колонках, и потребует от пользователей подтверждения. На Android он может работать как в полноэкранном режиме, так и в виде наложения, подобно тому, как работает Google Assistant сегодня. На iOS он, скорее всего, будет находиться в одном из приложений Google.

Генеративные возможности Google Assistant появились после того, как Alexa от Amazon стала более разговорчивой, а ChatGPT от OpenAI также стал мультимодальным, обретая возможность отвечать с помощью синтетического голоса и описывать содержимое изображений, передаваемых приложению. Одной из возможностей, видимо, уникальной для обновленного помощника Google, является способность разговаривать о веб-странице, которую пользователь посещает на своем телефоне.

Для Google в частности, введение генеративного искусственного интеллекта в его виртуального помощника вызывает вопросы о том, насколько быстро поисковый гигант начнет использовать большие языковые модели в большей части своих продуктов. Это может радикально изменить работу некоторых из них и способ, которым Google на них зарабатывает.

Усиление Функций

Google последние несколько лет пропагандирует возможности своего Google Assistant, который был впервые представлен на смартфонах в 2016 году, и последние несколько месяцев пропагандирует возможности Bard, который компания представляет как своего рода болтливого помощника, работающего на основе ИИ. Что же происходит при их объединении – в составе существующего приложения Assistant?

Хсиао говорит, что такое объединение комбинирует персонализированную помощь Assistant с рассуждениями и генеративными возможностями Bard. Один пример: из-за того, как Bard теперь работает в продуктивных приложениях Google, он может помогать находить и резюмировать электронные письма и отвечать на вопросы о рабочих документах. Те же функции теперь теоретически могут быть доступны через Google Assistant – вы можете запрашивать информацию о своих документах или электронных письмах с помощью голоса и иметь их резюме прочитанным вслух.

В свою очередь, новое соединение с Bard дает Google Assistant новые возможности для понимания содержимого изображений. У Google уже есть инструмент распознавания изображений, Google Lens, к которому можно получить доступ через Google Assistant или всеобъемлющее приложение Google. Но если вы сфотографируете картину или пару кроссовок и передадите ее в Lens, Lens либо определит картину, либо попытается продать вам кроссовки – показав ссылки на их покупку – и оставит все на этом.

Версия Assistant с Bard-ификацией, с другой стороны, будет понимать содержимое фотографии, которую вы поделились с ним, утверждает Хсиао. В будущем это может позволить глубокую интеграцию с другими продуктами Google. “Скажем, вы просматриваете Instagram и видите фотографию красивого отеля. Вы должны иметь возможность одним нажатием кнопки открыть Assistant и спросить: “Покажи мне больше информации об этом отеле и скажи, доступен ли он в мой день рождения””, – сказала она. “И он должен не только определить, какой отель это, но и проверить доступность в Google Hotels”.

Аналогичный рабочий процесс может превратить новый Google Assistant в мощный инструмент для покупок, если он сможет связывать продукты на изображениях с онлайн-магазинами. Хсиао сказала, что Google еще не интегрировало коммерческие списки продуктов в результаты Bard, но не отрицала, что это может произойти в будущем.

«Если пользователи действительно хотят этого, если они хотят покупать вещи через Bard, то это то, с чем мы можем ознакомиться», – сказала она. «Нам нужно посмотреть, как люди хотят совершать покупки с помощью Bard и исследовать это, внедрить это в продукт» (хотя Сяо представила это как то, что могут захотеть пользователи, это также может предоставить новые возможности для рекламного бизнеса Google).

Действуйте с осторожностью

Когда Google впервые объявил о Assistant в 2016 году, языковые навыки ИИ были гораздо менее развитыми. Сложность и неоднозначность языка делали невозможным для компьютеров полезно отвечать на что-то более чем на простые команды, и даже на них иногда был недосказан.

Появление больших языковых моделей за последние несколько лет – мощных моделей машинного обучения, обученных на огромном объеме текста из книг, Интернета и других источников – привело к революции в способности ИИ обрабатывать письменный и устный язык. Те же успехи, которые позволяют ChatGPT впечатляюще реагировать на сложные запросы, позволяют голосовым помощникам вести более естественный диалог.

Дэвид Ферруччи, генеральный директор компании по искусственному интеллекту Elemental Cognition и ранее руководитель проекта Watson в IBM, говорит, что языковые модели устраняют большую часть сложностей при создании полезных помощников. Разбор сложных команд раньше требовал огромного количества ручного кодирования для охвата различных вариаций языка, и конечные системы часто были раздражающе хрупкими и склонными к сбоям. «Большие языковые модели действительно дают вам огромный толчок», – говорит он.

Однако Ферруччи говорит, что поскольку языковые модели не очень подходят для предоставления точной и надежной информации, чтобы голосовой помощник был действительно полезным, потребуется много тщательной инженерной работы.

Более способные и реалистичные голосовые помощники могут, возможно, оказывать тонкое влияние на пользователей. Огромная популярность ChatGPT сопровождается путаницей относительно характера технологии, стоящей за ней, а также ее ограничений.

Мотаххар Эслами, ассистент профессора Карнеги-Меллонского университета, изучающий взаимодействие пользователей с помощниками ИИ, говорит, что большие языковые модели могут изменить способ, которым люди воспринимают свои устройства. Она говорит, что заметная уверенность, проявляемая чатботами, такими как ChatGPT, заставляет людей доверять им больше, чем следовало бы.

Люди также могут быть склонны олицетворять своего гладкого агента, который обладает голосом, говорит Эслами, что может еще больше запутать их понимание того, что технология может и не может делать. Также важно, чтобы все используемые алгоритмы не распространяли вредные предрассудки относительно расы, что может происходить в скрытой форме при работе с голосовыми помощниками. «Я являюсь поклонником технологии, но она имеет свои ограничения и вызовы», – говорит Эслами.

Том Грубер, один из сооснователей Siri, стартапа, приобретенного Apple в 2010 году благодаря его технологии голосового помощника под тем же именем, ожидает, что большие языковые модели приведут к значительному прорыву в возможностях голосовых помощников в ближайшие годы, но говорит, что они также могут привнести новые недостатки.

«Самый большой риск – и самая большая возможность – это персонализация на основе личных данных», – говорит Грубер. Помощник со доступом к электронной почте пользователя, сообщениям в Slack, голосовым вызовам, просмотру веб-страниц и другим данным мог бы помочь вспомнить полезную информацию или обнаружить ценные идеи, особенно если пользователь может вести естественный диалог. Но такая персонализация также создаст потенциально уязвимый новый репозиторий чувствительных личных данных.

«Неизбежно, что мы создадим персонального помощника, который станет вашей личной памятью, который сможет отслеживать все, что вы пережили, и усиливать ваше познание», – говорит Грубер. «Apple и Google – две надежные платформы, и они могут это сделать, но им придется дать некоторые очень серьезные гарантии».

Сяо говорит, что ее команда, конечно, думает о возможностях дальнейшего развития Assistant с помощью Bard и генеративного ИИ. Это может включать использование личной информации, такой как беседы в Gmail пользователя, чтобы ответы на запросы были более индивидуальными. Другая возможность – помощник, выполняющий задачи от имени пользователя, например, заказ столика в ресторане или бронирование авиабилетов.

Однако Сяо подчеркивает, что работа над такими функциями еще не началась. Она говорит, что потребуется некоторое время, чтобы виртуальный помощник был готов выполнять сложные задачи от имени пользователя и использовать его кредитную карту. «Может быть, через определенное количество лет эта технология станет настолько продвинутой и надежной, что люди будут готовы это делать, но нам придется проверять и учиться на пути вперед», – говорит она.