Новое обновление ChatGPT наконец-то преодолевает текстовый барьер | ENBLE

ChatGPT обновление преодолевает барьер | ENBLE

OpenAI представляет новые функциональности для ChatGPT, которые позволят выполнять запросы с изображениями и голосовыми указаниями, помимо текста.

AI-бренд объявил в понедельник, что в течение следующих двух недель эти новые функции будут доступны пользователям ChatGPT Plus и Enterprise. Голосовая функция доступна в iOS и Android на основе согласия пользователя, а функция изображений доступна на всех платформах ChatGPT. OpenAI отмечает, что планирует расширить доступность функций изображений и голоса для всех пользователей после поэтапного внедрения.

Twitter/X

Голосовой чат функционирует как аудитивный разговор между пользователем и ChatGPT. Вы нажимаете кнопку и задаете свой вопрос. После обработки информации, чат-бот дает вам ответ в аудиоформате, а не в текстовом. Процесс похож на использование виртуальных помощников, таких как Alexa или Google Assistant, и может стать предварительным этапом полной модернизации виртуальных помощников в целом. Анонс OpenAI появился всего несколько дней спустя после того, как Amazon объявила о подобной функции для Alexa.

Для реализации голосового и аудиообщения с ChatGPT OpenAI использует новую модель текста в речь, которая способна генерировать “голос, похожий на человеческий, только на основе текста и нескольких секунд образца речи”. Кроме того, его модель Whisper может “переводить ваши устные слова в текст”.

OpenAI отмечает, что осознает проблемы, которые могут возникнуть из-за мощности этой функции, включая “возможность злоумышленников подражать публичным лицам или совершать мошенничество”.

Это одна из основных причин, по которой компания планирует ограничить использование своих новых функций “определенными случаями использования и партнерствами”. Даже когда функции будут более широко доступны, они будут основным образом доступны более привилегированным пользователям, таким как разработчики.

Функция изображений позволяет захватывать изображение и вводить его в ChatGPT с вашим вопросом или запросом. Вы можете использовать инструмент рисования в приложении, чтобы помочь уточнить ваш ответ и вести диалог с чат-ботом до тех пор, пока ваша проблема не будет решена. Это похоже на новую функцию Copilot от Microsoft в Windows, которая основана на модели OpenAI.

OpenAI также признает вызовы, связанные с ChatGPT, такие как проблема галлюцинаций. Когда связана с функцией изображения, бренд решил ограничить определенные функциональности, такие как “возможность чат-бота анализировать и делать прямые заявления о людях”.

ChatGPT был первоначально представлен в качестве инструмента текст в речь в конце прошлого года; однако OpenAI быстро расширила его возможности. Оригинальный чат-бот, основанный на языковой модели GPT-3, был обновлен до GPT-3.5, а теперь до GPT-4, которая является моделью с новой функцией.

Когда GPT-4 был запущен в марте, OpenAI объявила о различных партнерствах с предприятиями, такими как Duolingo, которые использовали модель искусственного интеллекта для повышения точности прослушивания и речевых уроков в приложении для изучения языков. OpenAI сотрудничала со Spotify для перевода подкастов на другие языки с сохранением звучания голоса ведущего подкаста. Компания также упомянула о своей работе с мобильным приложением Be My Eyes, которое помогает слепым и лицам с нарушениями зрения. Многие из этих приложений и услуг были доступны до обновления функций изображений и голоса.