Теперь вы можете проводить голосовые чаты с ChatGPT. Вот как

Голосовые чаты с ChatGPT теперь возможны. Вот как.

Когда OpenAI выпустила GPT-4 в марте, одним из его самых больших преимуществ была его мультимодальная способность, которая позволяла ChatGPT принимать входные изображения. Однако мультимодальная возможность не была готова к развертыванию – до сих пор.

В понедельник OpenAI объявила, что ChatGPT теперь может “видеть, слышать и говорить”, намекая на новые возможности популярного чат-бота принимать и изображения, и голосовые входы и отвечать в голосовых разговорах.

Также: Amazon усиливает свои возможности в области генеративного ИИ с инвестициями в Anthropic в размере 4 миллиардов долларов

Возможность ввода изображения может быть полезна при получении помощи с тем, что вы видите, такого как решение математической задачи на листе бумаги, определение названия растения или просмотр предметов в вашей кладовой и предоставление рецептов.

Во всех вышеуказанных случаях пользователю достаточно сделать снимок того, что он видит, и добавить вопрос, на который он хочет получить ответ. OpenAI сообщает, что возможность понимания изображения осуществляется с помощью GPT-3.5 и GPT-4.

Возможность ввода и вывода голоса дает ChatGPT функциональность голосового помощника. Теперь, чтобы запросить у ChatGPT выполнение задачи, пользователю нужно всего лишь использовать свой голос, и после обработки запроса ChatGPT вербально озвучит свой ответ.

В демонстрации, опубликованной OpenAI, пользователь устно просит ChatGPT рассказать историю на ночь о ёжике. ChatGPT отвечает, рассказывая историю, аналогично функционированию голосовых помощников, таких как Alexa от Amazon.

Также: Почему открытый исходный код является колыбелью искусственного интеллекта

Гонка за поддерживаемыми искусственным интеллектом помощниками искусственного интеллекта в самом разгаре, поскольку на прошлой неделе Amazon объявила о суперзарядке Alexa с новым LLM, который даст ей возможности, подобные ChatGPT, что, по сути, сделает ее голосовым помощником без использования рук. Интеграция голоса ChatGPT в его платформу достигает того же конечного результата.

Для поддержки функции голоса OpenAI использует Whisper, свою систему распознавания речи, для преобразования произнесенных слов пользователя в текст, а также новую модель текста в речь, которая может генерировать звук, похожий на человеческий, из текста всего за несколько секунд речи.

Для создания всех пяти голосов ChatGPT, которые пользователи могут выбрать, компания сотрудничала с профессиональными озвучивателями.

Возможности голоса и изображения будут доступны только для пользователей ChatGPT Plus и Enterprise в течение следующих двух недель. Однако OpenAI говорит, что они расширят доступ к этой функции для других пользователей, таких как разработчики, вскоре после этого.

Также: Мои два любимых плагина ChatGPT Plus и замечательные вещи, которые я могу с их помощью делать

Если вы являетесь пользователем Plus или Enterprise, чтобы использовать функцию ввода изображения, вам просто нужно нажать кнопку фото в интерфейсе чата и загрузить изображение. Чтобы получить доступ к функции голоса, перейдите в “Настройки” < “Новые функции” и включите голосовые разговоры.

Bing Chat, поддерживаемый GPT-4, поддерживает входы изображений и голоса и полностью бесплатен в использовании. Так что, если вы хотите протестировать эти функции, но пока не имеете к ним доступа, Bing Chat – хорошая альтернатива.