ChatGPT теперь поддерживает голосовые чаты и запросы на основе изображений.

ChatGPT поддерживает голосовые чаты и запросы на основе изображений.

ChatGPT получает значительные обновления, которые позволят чатботу работать с голосовыми командами и запросами на основе изображений. Пользователи смогут вести разговор с ChatGPT голосом на устройствах Android и iOS и загружать изображения на всех платформах. OpenAI вводит эти функции сейчас. Они будут доступны сначала подписчикам Plus и Enterprise, а другие пользователи получат доступ к функциям на основе изображений позже.

Если вы хотите попробовать голосовые разговоры, вам нужно будет включить эту функцию в приложении ChatGPT (перейдите в раздел “Настройки”, затем “Новые функции”). Нажав на кнопку микрофона, вы сможете выбрать из пяти разных голосов.

OpenAI говорит, что голосовые разговоры осуществляются с помощью новой модели текст в речь, которая может генерировать “звучание, похожее на человеческое, на основе всего лишь текста и нескольких секунд образца речи”. Компания создала пять голосов с помощью профессиональных актеров. В обратном направлении система распознавания речи Whisper компании OpenAI преобразует произнесенные слова пользователя в текст.

Функции на основе изображений также вызывают интерес. OpenAI говорит, что, например, вы можете показать чатботу фотографию вашего гриля и спросить, почему он не запускается, попросить его помочь спланировать прием пищи на основе снимка содержимого вашего холодильника или попросить его решить математическую задачу, фотографию которой вы сделали. Кстати, на прошлой неделе Microsoft подчеркнула способность искусственного интеллекта Copilot решать математические задачи в Windows во время своего мероприятия Surface.

Для работы функций распознавания изображений ChatGPT использует GPT-3.5 и GPT-4. Чтобы воспользоваться функциями на основе изображений ChatGPT, нажмите кнопку фото (сначала вам нужно будет нажать кнопку плюс на устройствах iOS или Android), чтобы сделать снимок или выбрать существующее изображение на вашем устройстве. Вы можете задавать ChatGPT вопросы о нескольких фотографиях и использовать инструмент для рисования, чтобы сосредоточиться на определенной части изображения.

В блоге, объявляющем обновления, OpenAI отмечает потенциальную опасность. Плохие актеры могут подражать голосам публичных лиц (и обычных людей) и, возможно, совершать мошенничество. Поэтому OpenAI сосредоточивается на голосовых разговорах с ChatGPT с использованием этой технологии и работает с выбранными партнерами над другими ограниченными сценариями использования (больше об этом в следующем абзаце).

Что касается изображений, OpenAI сотрудничала с Be My Eyes, бесплатным приложением, которое слепые и слабовидящие люди могут использовать, чтобы лучше понимать окружающую среду благодаря добровольцам, которые присоединяются к видеозвонкам с ними. “Пользователи сообщили нам, что они находят ценность в общении о случайных изображениях, на которых есть люди на заднем плане, например, если кто-то появляется на телевизоре, когда вы пытаетесь разобраться с настройками пульта дистанционного управления”, – говорит OpenAI. Компания отмечает, что она также ограничила способность ChatGPT анализировать и делать прямые заявления о людях, изображенных на фотографиях, “поскольку ChatGPT не всегда точен, а эти системы должны уважать конфиденциальность личности”. Она опубликовала научную статью о безопасности функциональности на основе изображений, которую называет GPT-4 с возможностью обработки изображений.

ChatGPT более эффективно понимает английский текст на изображениях, чем другие языки. OpenAI говорит, что пока чатбот “плохо справляется” с другими языками, особенно с теми, которые используют нелатинские алфавиты. Поэтому она рекомендует пользователям, говорящим на неанглийском языке, воздержаться от использования ChatGPT для работы с текстом на изображениях в настоящее время.

Тем временем Spotify сотрудничает с OpenAI, чтобы использовать технологию на основе голоса для интересной цели. Первая компания анонсировала запуск пилотной версии инструмента под названием Voice Translation для подкастеров. Он может переводить подкасты на разные языки с использованием голосов людей, которые появляются в передаче. Spotify говорит, что этот инструмент может сохранить речевые характеристики оригинального диктора после преобразования его голоса на другой язык.

Сначала Spotify преобразует некоторые англоязычные шоу на несколько языков. Испанская версия некоторых эпизодов Armchair Expert и The Diary of a CEO с участием Стивена Бартлетта уже доступна, а также будут доступны французская и немецкая версии.