ChatGPT представляет голосовые и изображения возможности

ChatGPT has voice and image capabilities

Всеми любимый чат-бот теперь может видеть, слышать и говорить. В понедельник OpenAI объявила о новых мультимодальных возможностях для ChatGPT. Теперь пользователи могут проводить голосовые разговоры или делиться изображениями с ChatGPT в режиме реального времени.

Аудио и мультимодальные функции стали следующей фазой в ожесточенной борьбе между генеративными ИИ. Meta недавно запустила AudioCraft для создания музыки с помощью ИИ, а Google Bard и Microsoft Bing внедрили мультимодальные функции в свои чат-платформы. Всего на прошлой неделе Amazon представила обновленную версию Alexa, которая будет основана на собственной большой языковой модели LLM, а даже Apple экспериментирует с искусственно сгенерированным голосом в своем продукте Personal Voice.

Возможности голоса будут доступны на iOS и Android. Как и с Alexa или Siri, вы можете нажать, чтобы поговорить с ChatGPT, и он ответит вам одним из пяти предпочитаемых голосовых вариантов. В отличие от существующих голосовых ассистентов, ChatGPT основан на более продвинутых LLM, поэтому то, что вы услышите, будет похоже на разговорный и творческий ответ, который способны создать GPT-4 и GPT-3.5 от OpenAI с помощью текста. Пример, который OpenAI поделилась в объявлении, – это создание сказки на основе голосовой подсказки. Таким образом, истощенные родители в конце долгого дня могут передать свою креативность ChatGPT.

Твит может быть удален

Мультимодальное распознавание – это нечто, что прогнозировалось уже давно и теперь запускается в удобной для пользователя форме для ChatGPT. Когда в марте был выпущен GPT-4, OpenAI продемонстрировала его способность понимать и интерпретировать изображения и рукописный текст. Теперь это станет частью повседневного использования ChatGPT. Пользователи могут загружать изображение и задавать ChatGPT вопросы о нем – определение облака или составление плана приема пищи на основе фотографии содержимого вашего холодильника. Мультимодальность будет доступна на всех платформах.

Как и в случае с любым развитием генеративного ИИ, необходимо серьезно учитывать этические и приватность вопросы. Чтобы уменьшить риски глубокой подделки аудио, OpenAI говорит, что использует свою технологию распознавания аудио только для конкретного случая использования “голосового чата”. Кроме того, она была создана с участием актеров голоса, с которыми они “непосредственно работали”. Тем не менее, в объявлении не указывается, могут ли голоса пользователей использоваться для обучения модели, когда вы выбираете голосовой чат. Что касается мультимодальных возможностей ChatGPT, OpenAI утверждает, что они приняли “технические меры для существенного ограничения способности ChatGPT анализировать и делать прямые заявления о людях, поскольку ChatGPT не всегда точен, и эти системы должны уважать конфиденциальность личности”. Но настоящее испытание злонамеренного использования станет известно только после его выпуска на волю.

Голосовой чат и изображения будут доступны для пользователей ChatGPT Plus и Enterprise в течение следующих двух недель и всем остальным пользователям “вскоре”.