Deepgram запускает Aura API по преобразованию текста в речь в реальном времени для агентов искусственного интеллекта в диалоговых системах.

Deepgram утвердилась как ведущий стартап в области распознавания голоса. Сегодня хорошо финансируемая компания объявила о выпуске своего новейшего продукта - Aura.

“`html

Deepgram’s Aura укрепляет AI-агентов голосом | ENBLE

Deepgram Aura

Deepgram, знаменитый стартап по распознаванию речи, недавно представил Aura, инновационное API для реального времени текста в речь. Aura объединяет передовые голосовые модели с интерфейсом низкой задержки, позволяя разработчикам создавать AI-агентов в реальном времени. Эти агенты могут эффективно заменить человеческих операторов службы поддержки в колл-центрах и других ситуациях, где есть контакт с клиентом.

Ранее получение высококачественных голосовых моделей было дорогим и занимало много времени. С другой стороны, модели с низкой задержкой часто лишены естественного человеческого голоса, звучащие механически и искусственно. Однако Aura от Deepgram решает этот дилемму, предлагая исключительно реалистичные голосовые модели, которые воспроизводятся менее чем за полсекунды — и все это по доступной цене 🚀.

По словам Скотта Стивенсона, сооснователя и генерального директора Deepgram, существует неотложная потребность в AI-ботах реального времени, способных понимать и отвечать на запросы клиентов. Однако для создания успешного продукта необходима точность, низкая задержка и разумные издержки. Deepgram разработал Ауру как идеальное решение, удовлетворяющее эти требования, превосходя большинство конкурентов по цене и производительности.

В настоящее время ценообразование Ауры составляет впечатляющие $0,015 за 1 000 символов, что делает ее более экономичной, чем голоса WaveNet от Google, стоимостью 0,016 за 1 000 символов, и нейронные голоса Amazon Polly, также по цене $0,016 за 1 000 символов. Deepgram придал приоритет достижению оптимального баланса между стоимостью, скоростью и точностью, что не является легким заданием. Четырехлетние усилия компании по построению базовой инфраструктуры позволили им овладеть этим тонким балансом.

В настоящее время Аура предлагает более десятка голосовых моделей, созданных в сотрудничестве с профессиональными дикторами. Модели были обучены внутри компании с использованием данных, подобранных Deepgram. Пользователи могут оценить исключительное качество и скорость Ауры через доступное демо по ссылке здесь. Хотя в процессе тестирования могут возникнуть некоторые странные произношения, выдающаяся скорость Ауры, в сочетании с высококачественной моделью речи в текст от Deepgram, делает ее выдающейся на рынке.

Для иллюстрации скорости ответов Ауры Deepgram подчеркивает время, затраченное моделью на начало речи (обычно менее 0,3 секунды) и продолжительность для генерации полного ответа языковой моделью (обычно менее секунды). Это обеспечивает плавное и эффективное общение с пользователями.

Дополнительный контент Q&A

В: Каковы преимущества использования реального времени текста в речь API Ауры?

О: Реальное время текста в речь API позволяет разработчикам создавать AI-агентов для разговора, которые могут эффективно заменить человеческих операторов службы поддержки в колл-центрах и других ситуациях контакта с клиентами. Низкая задержка API и очень реалистичные голосовые модели обеспечивают гладкое и естественное общение для пользователей.

В: В чем разница Ауры от ее конкурентов с точки зрения ценообразования?

О: Ценообразование Ауры, в размере $0,015 за 1 000 символов, более выгодно по сравнению с аналогичными продуктами. Тогда как голоса WaveNet Google и нейронные голоса Amazon Polly предлагают схожее ценообразование по $0,016 за 1 000 символов, Аура предоставляет относительно более дешевые альтернативы, что делает ее привлекательным вариантом для бизнеса.

В: Как Deepgram обеспечивает качество своих голосовых моделей?

О: Deepgram сотрудничает с дикторами для создания учебных баз данных внутри компании для своих голосовых моделей. Это партнерство обеспечивает высочайшее качество и аутентичность моделей, что приводит к естественному и захватывающему разговорному опыту.

Влияние и будущее API реального времени текста в речь

Выпуск Aura от Deepgram представляет собой значительное совершенствование в области разговорного AI. Предоставляя комбинацию низкой задержки, голосовых моделей, похожих на человеческие, и доступной цены, Aura имеет потенциал изменить взаимодействие с клиентами службы поддержки и улучшить общий пользовательский опыт.

Этот прогресс также подчеркивает увеличивающийся спрос на AI-ботов реального времени, способных понимать и отвечать на запросы пользователей. При стремлении бизнесов к предоставлению эффективной и отзывчивой обслуживающей службы принятие реального времени текста в речь API ожидается, что будет быстро увеличиваться. Технология имеет потенциал оптимизировать операции колл-центров, экономя время и ресурсы для организаций, обеспечивая пользователей более персонализированным и эффективным клиентским опытом.

“““html

В будущем мы можем ожидать дальнейшего развития реального времени текста в речь API, с еще более естественными моделями голоса и расширенными возможностями общения. Поскольку возможности искусственного интеллекта продолжают продвигаться, мы можем стать свидетелями плавного интегрирования AI-агентов в различные отрасли помимо обслуживания клиентов, такие как здравоохранение, образование и развлечения.

Чтобы быть в курсе последних тенденций и разработок в этой области, вот несколько актуальных статей:

Не забудьте поделиться этой статьей с друзьями и коллегами, которые могут быть заинтересованы в захватывающем мире реального времени текста в речь API. Давайте начнем разговор и исследуем безграничные возможности вместе! ✨🗣️

Оригинально опубликовано на TechCrunch.

“`