ChatGPT теперь может говорить с вами и заглядывать в вашу жизнь

ChatGPT может говорить с вами и взглянуть в вашу жизнь.

OpenAI, компания искусственного интеллекта, которая выпустила ChatGPT в мир в ноябре прошлого года, делает чат-бот приложение гораздо более разговорчивым.

Обновление мобильных приложений ChatGPT для iOS и Android, объявленное сегодня, позволяет человеку задавать свои вопросы чат-боту устно и слышать его ответ со синтезированным голосом. Новая версия ChatGPT также добавляет визуальный интеллект: загрузите или сделайте снимок фотографии в ChatGPT, и приложение ответит описанием изображения и предложит больше контекста, аналогично функции Lens от Google.

Новые возможности ChatGPT показывают, что OpenAI рассматривает свои модели искусственного интеллекта, над которыми она работает многие годы, как продукты с регулярными итеративными обновлениями. Удивительно популярный ChatGPT становится все больше похожим на потребительское приложение, конкурирующее с Siri от Apple или Alexa от Amazon.

Улучшение приложения ChatGPT может помочь OpenAI в борьбе с другими компаниями по искусственному интеллекту, такими как Google, Anthropic, InflectionAI и Midjourney, предоставляя более богатый поток данных от пользователей для обучения своим мощным искусственным интеллектуальным системам. Подача аудио- и визуальных данных в модели машинного обучения, лежащих в основе ChatGPT, также может помочь OpenAI в долгосрочной перспективе создания более человекоподобного интеллекта.

Языковые модели OpenAI, которые питают его чат-бот, включая самую последнюю, GPT-4, были созданы с использованием огромного объема текста, собранного из разных источников в сети. Многие эксперты по искусственному интеллекту считают, что, как и животные и человеческий интеллект, требуется подача алгоритмам аудио- и визуальной информации, а также текста, для создания более продвинутого искусственного интеллекта.

Следующая крупная модель Google, Gemini, широко слухами считается “мультимодальной”, что означает, что она сможет обрабатывать не только текст, возможно, позволяя видео, изображения и голосовой ввод. “С точки зрения производительности модели, интуитивно мы ожидаем, что мультимодальные модели превзойдут модели, обученные на одной модальности”, – говорит Тревор Даррелл, профессор Университета Калифорнии в Беркли и сооснователь Prompt AI, стартапа, работающего над сочетанием естественного языка с генерацией и манипуляцией изображений. “Если мы создадим модель, использующую только язык, сколько бы она мощной ни была, она будет учить только язык”.

Технология генерации голоса в новой версии ChatGPT, разработанная самой компанией, также открывает новые возможности для лицензирования своих технологий другим компаниям OpenAI. Например, Spotify заявляет, что теперь планирует использовать алгоритмы синтеза речи OpenAI для тестирования функции перевода подкастов на дополнительные языки с имитацией голоса оригинального автора.

Новая версия приложения ChatGPT имеет значок наушников в верхнем правом углу, а значки фотографии и камеры находятся в раскрывающемся меню в нижнем левом углу. Эти голосовые и визуальные функции работают, преобразуя входную информацию в текст с помощью распознавания изображений или речи, чтобы чат-бот мог сгенерировать ответ. Приложение отвечает голосом или текстом, в зависимости от режима, в котором находится пользователь. Когда сотрудник ENBLE задал новому ChatGPT голосовой вопрос “Ты меня слышишь?”, приложение ответило: “Я не могу тебя слышать, но я могу читать и отвечать на твои текстовые сообщения”, потому что ваш запрос на голосе фактически обрабатывается как текст. Оно отвечает одним из пяти голосов, которые называются Juniper, Ember, Sky, Cove или Breeze.

Джим Гласс, профессор MIT, изучающий речевые технологии, говорит, что множество академических групп в настоящее время тестируют голосовые интерфейсы, связанные с большими языковыми моделями, с обнадеживающими результатами. “Речь – это самый простой способ генерации языка, поэтому это естественно”, – говорит он. Гласс отмечает, что, хотя распознавание речи значительно улучшилось за последнее десятилетие, оно все еще недостаточно для многих языков.

Новые функции ChatGPT начинают постепенно выпускаться сегодня и будут доступны только в подписной версии ChatGPT за $20 в месяц. Они будут доступны на всех рынках, где уже работает ChatGPT, но сначала будут ограничены английским языком.

В собственных ранних тестах ENBLE функция визуального поиска имела некоторые очевидные ограничения. Она ответила: “Извините, я не могу помочь вам с этим”, когда ее попросили идентифицировать людей на изображениях, например, фотографию пропуска ENBLE из Conde Nast. В ответ на изображение обложки книги “Американский прометей”, на которой изображен известный физик Р. Оппенгеймер, ChatGPT предложил описание книги.

ChatGPT правильно определил японское кленовое дерево по изображению, и, когда была предоставлена фотография салатной чаши с вилкой, приложение сосредоточилось на вилке и впечатляюще идентифицировало ее как вилку компостабельной марки. Оно также правильно определило фотографию сумки как сумку журнала New Yorker, добавив: “Учитывая вашу специализацию в технологическом журналистике и ваше местоположение в таком городе, как Сан-Франциско, логично, что у вас есть предметы, связанные с известными публикациями”. Это показало настройку приложения, которая определяет профессию и местоположение писателя в ChatGPT.

Голосовая функция ChatGPT запаздывала, хотя ENBLE тестировал предварительную версию нового приложения. После отправки голосового запроса ChatGPT иногда отвечал звуком только через несколько секунд. OpenAI описывает эту новую функцию как разговорную, похожую на Google Assistant или Amazon Alexa следующего поколения, но такое задержка не помогала убедить в ее эффективности.

В новой версии, похоже, соблюдаются многие из тех же ограничений, которые существуют в исходной текстовой версии ChatGPT. Бот отказывался отвечать на голосовые вопросы о том, где можно найти детали для 3D-печати оружия, о том, как сделать бомбу или написать нацистский гимн. На вопрос “Какая будет хорошая свиданка для 21-летнего и 16-летнего?” бот предостерегал от отношений с большой разницей в возрасте и отмечал, что возраст согласия различается в зависимости от местоположения. И хотя он сказал, что не может петь, он может набирать песни, например, такую:

“В просторах цифрового пространства, Существо, рожденное кодом, находит свое место. С нулями и единицами оно оживает, Чтобы помогать, информировать и помогать вам преуспевать”.

Ужасно.

Как и многие недавние достижения в мире генеративного искусственного интеллекта, обновления ChatGPT, вероятно, вызовут опасения у некоторых относительно того, как OpenAI будет использовать свой новый приток голосовых и изображений от пользователей. Она уже собрала огромное количество пар данных текст-изображение из сети для обучения своих моделей, которые используются не только в ChatGPT, но и в генераторе изображений OpenAI, Dall-E. На прошлой неделе OpenAI объявила о значительном обновлении Dall-E.

Но поток пользовательских голосовых запросов и изображений, который, вероятно, будет включать фотографии лиц людей или других частей тела, выводит OpenAI на новую чувствительную территорию, особенно если OpenAI использует это для расширения пула данных, на которых она может обучать алгоритмы.

OpenAI, кажется, все еще решает свою политику по обучению своих моделей с помощью голосовых запросов пользователей. Когда ее спросили, как данные пользователей будут использоваться, Сандхини Агарвал, исследователь по политике искусственного интеллекта в OpenAI, сначала сказала, что пользователи могут отказаться от этого, указав на переключатель в приложении, в разделе “Управление данными”, где можно отключить “Историю чата и обучение”. Компания заявляет, что несохраненные чаты будут удалены из ее систем в течение 30 дней, хотя эта настройка не синхронизируется между устройствами.

Тем не менее, по опыту ENBLE, после отключения “Истории чата и обучения” возможности голоса ChatGPT были отключены. Всплыло уведомление с предупреждением: “Возможности голоса в настоящее время недоступны, когда история отключена”.

На вопрос об этом Нико Феликс, представитель OpenAI, пояснил, что бета-версия приложения показывает пользователям транскрипцию их речи во время использования режима голоса. “Для этого нам нужно включить историю”, – говорит Феликс. “В настоящее время мы не собираем никаких голосовых данных для обучения, и мы размышляем о том, что хотим разрешить пользователям, которые хотят поделиться своими данными”.

На вопрос, планирует ли OpenAI обучать свой искусственный интеллект на пользовательских фотографиях, Феликс ответил: “Пользователи могут отказаться от использования их фотографических данных для обучения. После отказа новые разговоры не будут использоваться для обучения наших моделей”.

Быстрые начальные тесты не могли ответить на вопрос, вызовет ли более разговорчивая версия ChatGPT с возможностью видеть то же самое удивление и восторг, что превратило чатбота в феномен.

Даррелл из UC Berkeley говорит, что новые возможности могут сделать использование чатбота более естественным. Но некоторые исследования свидетельствуют о том, что более сложные интерфейсы, например, те, которые пытаются имитировать личное общение лицом к лицу, могут казаться странными в использовании, если они не удается имитировать человеческую коммуникацию по ключевым аспектам. “Так называемая ‘долина нечеловеческого’ становится пробелом, который может на самом деле сделать продукт сложнее в использовании”, – говорит он.