Новое обновление ChatGPT наконец-то преодолевает текстовый барьер | ENBLE
ChatGPT обновление преодолевает барьер | ENBLE
OpenAI представляет новые функциональности для ChatGPT, которые позволят выполнять запросы с изображениями и голосовыми указаниями, помимо текста.
AI-бренд объявил в понедельник, что в течение следующих двух недель эти новые функции будут доступны пользователям ChatGPT Plus и Enterprise. Голосовая функция доступна в iOS и Android на основе согласия пользователя, а функция изображений доступна на всех платформах ChatGPT. OpenAI отмечает, что планирует расширить доступность функций изображений и голоса для всех пользователей после поэтапного внедрения.
![](https://www.digitaltrends.com/wp-content/uploads/2023/09/chatgpt-925-2.jpg?fit=720%2C720&p=1)
Голосовой чат функционирует как аудитивный разговор между пользователем и ChatGPT. Вы нажимаете кнопку и задаете свой вопрос. После обработки информации, чат-бот дает вам ответ в аудиоформате, а не в текстовом. Процесс похож на использование виртуальных помощников, таких как Alexa или Google Assistant, и может стать предварительным этапом полной модернизации виртуальных помощников в целом. Анонс OpenAI появился всего несколько дней спустя после того, как Amazon объявила о подобной функции для Alexa.
Для реализации голосового и аудиообщения с ChatGPT OpenAI использует новую модель текста в речь, которая способна генерировать “голос, похожий на человеческий, только на основе текста и нескольких секунд образца речи”. Кроме того, его модель Whisper может “переводить ваши устные слова в текст”.
OpenAI отмечает, что осознает проблемы, которые могут возникнуть из-за мощности этой функции, включая “возможность злоумышленников подражать публичным лицам или совершать мошенничество”.
- Больше нет GPU? Вот как может выглядеть DLSS 10 от Nvidia | ENBLE
- Бета-версия Fedora 39 предлагает самое эффективное распределение Li...
- Ставка Amazon на искусственный интеллект Anthropic может составить ...
Это одна из основных причин, по которой компания планирует ограничить использование своих новых функций “определенными случаями использования и партнерствами”. Даже когда функции будут более широко доступны, они будут основным образом доступны более привилегированным пользователям, таким как разработчики.
Функция изображений позволяет захватывать изображение и вводить его в ChatGPT с вашим вопросом или запросом. Вы можете использовать инструмент рисования в приложении, чтобы помочь уточнить ваш ответ и вести диалог с чат-ботом до тех пор, пока ваша проблема не будет решена. Это похоже на новую функцию Copilot от Microsoft в Windows, которая основана на модели OpenAI.
OpenAI также признает вызовы, связанные с ChatGPT, такие как проблема галлюцинаций. Когда связана с функцией изображения, бренд решил ограничить определенные функциональности, такие как “возможность чат-бота анализировать и делать прямые заявления о людях”.
ChatGPT был первоначально представлен в качестве инструмента текст в речь в конце прошлого года; однако OpenAI быстро расширила его возможности. Оригинальный чат-бот, основанный на языковой модели GPT-3, был обновлен до GPT-3.5, а теперь до GPT-4, которая является моделью с новой функцией.
Когда GPT-4 был запущен в марте, OpenAI объявила о различных партнерствах с предприятиями, такими как Duolingo, которые использовали модель искусственного интеллекта для повышения точности прослушивания и речевых уроков в приложении для изучения языков. OpenAI сотрудничала со Spotify для перевода подкастов на другие языки с сохранением звучания голоса ведущего подкаста. Компания также упомянула о своей работе с мобильным приложением Be My Eyes, которое помогает слепым и лицам с нарушениями зрения. Многие из этих приложений и услуг были доступны до обновления функций изображений и голоса.