Для создания субтитров ключевую роль по-прежнему играют люди в рамках доступных технологий, управляемых искусственным интеллектом.

Люди играют ключевую роль в создании субтитров при использовании доступных технологий искусственного интеллекта.

Следует продолжать обсуждение необходимости управления искусственным интеллектом (ИИ) людьми, и в этом контексте значимую роль играют аудио-транскрипция, субтитры и автоматическое распознавание речи (АРР). Важность субтитров и субтитров для доступа к медиа-контенту и информации для зрителей, имеющих проблемы со слухом, возросла за последние несколько лет. Сторонники прав лиц с ограниченными возможностями активно выступают за улучшение субтитров, что становится все более актуальным с развитием сервисов потокового видео. Платформы на основе видео также активно применяют ИИ, например, YouTube уже начал тестирование новой функции ИИ, которая резюмирует видео, а TikTok исследует возможность использования собственного чат-бота.

С учетом растущего интереса к применению ИИ в качестве средства преодоления ограничений технологий, включение последних инструментов и услуг ИИ в автоматическую генерацию субтитров может показаться логичным шагом вперед.

3Play Media, компания, предоставляющая услуги доступности видео и субтитров, в своем недавно опубликованном отчете о состоянии автоматического распознавания речи в 2023 году изучила влияние инструментов генерации ИИ на субтитры, которые в основном используются зрителями, имеющими проблемы со слухом. Согласно результатам исследования, пользователи должны обращать внимание на гораздо большее количество факторов, чем простая точность, когда в игру вступают новые, быстро развивающиеся услуги ИИ.

Точность автоматического распознавания речи

В отчете 3Play Media была проанализирована частота ошибок слов (количество точно распознанных слов) и частота ошибок форматирования (точность как слов, так и форматирования в транскрибированном файле) различных движков АРР, или генераторов субтитров на основе ИИ. Различные движки АРР применяются в различных отраслях, включая новости, высшее образование и спорт.

“Высокое качество АРР не всегда приводит к высокому качеству субтитров”, – говорится в отчете. “Для частоты ошибок слов даже лучшие движки показали только около 90% точности, а для частоты ошибок форматирования – только около 80% точности, что недостаточно для законного соответствия и 99% точности, являющейся стандартом отрасли для доступности”.

Американский закон об инвалидах (ADA) требует от государственных и местных органов власти, бизнеса и некоммерческих организаций, обслуживающих общественность, “эффективно общаться с лицами, имеющими проблемы с общением”, включая предоставление услуг закрытых или реального времени субтитров для лиц, имеющих проблемы со слухом. В соответствии с правилами соответствия Федеральной комиссии связи (FCC) для телевидения, субтитры должны быть точными, синхронизированными, непрерывными и должны быть правильно размещены в “наибольшей возможной степени”.

Точность субтитров в различных рынках и сценариях использования также сильно варьировалась. “Новости и сети, кино и спорт являются самыми сложными для точного распознавания АРР”, – пишет 3Play Media, “поскольку в этих отраслях часто используется фоновая музыка, перекрывающая речь, и звуковые эффекты. В этих отраслях имеются самые высокие средние показатели ошибок частоты слов и ошибок форматирования, а наименьшая точность наблюдается в новостях и сетях”.

Хотя, в целом, результаты улучшились по сравнению с отчетом 3Play Media за 2022 год, компания обнаружила, что показатели ошибок все еще достаточно высоки для того, чтобы требовалось сотрудничество с редакторами для всех протестированных рынков.

Вовлечение людей в процесс

Модели транскрипции на всех уровнях, от потребителей до промышленного использования, уже много лет используют генерацию аудио-субтитров на основе ИИ. Многие уже применяют так называемые системы “человек-в-петле”, в которых многомодульный процесс включает как инструменты АРР (или ИИ), так и редакторов. Компании, такие как Rev, другой сервис по созданию субтитров и транскрипции, указывают на важность редакторов для синхронизации аудио-визуального контента, форматирования экрана и других необходимых шагов для полного доступа к визуальным медиа.

Твит может быть удален

Модели “человек-в-петле”, также известные как HITL, были предложены в разработке генеративного ИИ для лучшего контроля подразумеваемой предвзятости в моделях ИИ и для руководства генеративным ИИ с помощью решений, принимаемых людьми.

Инициатива доступности Всемирной паутины (W3C) давно придерживается своего мнения о контроле со стороны людей, как указано в ее руководстве по субтитрам и субтитрам. “Автоматически сгенерированные субтитры не удовлетворяют потребностям пользователей или требованиям доступности, если они не подтверждены полной точностью. Обычно требуется значительное редактирование”, – говорится в руководстве организации. “Автоматические субтитры можно использовать как отправную точку для разработки точных субтитров и транскриптов”.

И в отчете 3Play Media о важности живых, создаваемых людьми транскрипций в 2021 году также отмечаются схожие опасения.

“ИИ не обладает той же способностью контекстуализации, как у человека, что означает, что когда ASR неправильно понимает слово, есть возможность, что оно будет заменено на несвязанное, или вообще опущено”, – пишет компания. “Хотя в настоящее время нет определенного юридического требования к точности живой транскрипции, существующие федеральные и штатные нормативы по транскрипции для записанного контента утверждают, что доступные услуги должны предоставлять равный опыт зрения зрячего зрителя… В то время как ни ИИ, ни транскрибаторы-люди не могут обеспечить 100% точность, наиболее эффективные методы живой транскрипции включают оба, чтобы приблизиться к максимально возможной точности.”

Выявление галлюцинаций

В дополнение к более низким показателям точности при использовании только ASR, отчет 3Play Media отмечает явную озабоченность возможностью “галлюцинаций” ИИ, как фактически неверной информации, так и включения полностью выдуманных предложений.

В широком смысле, галлюцинации, основанные на ИИ, стали центральным аспектом среди арсенала жалоб на созданный ИИ текст.

В январе информационный надзорщик NewsGuard опубликовал исследование о легкости ChatGPT в генерации и распространении вводящих в заблуждение утверждений пользователям, выдающим себя за “плохих актеров”. Отмечается, что ИИ-бот 80 раз из 100 передавал дезинформацию о новостных событиях в ответ на ведущие подсказки, связанные с выборкой ложных повествований. В июне американский радиоведущий подал иск о клевете против OpenAI после того, как его чат-бот ChatGPT, по-видимому, предлагал ошибочные “факты” о ведущем пользователю, ищущем детали федерального судебного дела.

В прошлом месяце лидеры в области ИИ (включая Amazon, Anthropic, Google, Inflection, Meta, Microsoft и OpenAI) встретились с администрацией Байдена-Харриса “для того, чтобы помочь двигаться в сторону безопасного, надежного и прозрачного развития технологий искусственного интеллекта” перед возможным указом о ответственном использовании ИИ. Все присутствующие компании подписали серию из восьми обязательств для обеспечения общественной безопасности, безопасности и доверия.

Для интеграции ИИ в повседневную технологию и особенно для разработчиков, ищущих другие формы генерации текста с помощью ИИ как удобный путь к доступности, такие несоответствия, как галлюцинации, представляют такую же большую опасность для пользователей, объясняет 3Play Media.

“С точки зрения доступности, галлюцинации представляют еще более серьезную проблему: ложное изображение точности для глухих и слабослышащих зрителей”, – говорится в отчете 3Play. 3Play пишет, что, несмотря на впечатляющую производительность в производстве хорошо знаковых, грамматических предложений, проблемы, такие как галлюцинации, в настоящее время представляют высокие риски для пользователей.

Лидеры отрасли пытаются решить проблему галлюцинаций путем продолжения обучения, и некоторые из крупнейших лидеров в сфере технологий, такие как Билл Гейтс, очень оптимистичны. Но те, кому необходимы доступные услуги, не могут ждать, пока разработчики не доведут свои ИИ-системы до совершенства.

“Возможно, что эти галлюцинации будут сокращены благодаря точной настройке, но отрицательные последствия для доступности могут быть серьезными”, – заключает отчет 3Play Media. “Человеческие редакторы остаются незаменимыми в создании качественных заголовков, доступных для наших основных пользователей – людей с нарушениями слуха”.

Хотите больше историй о социальной полезности и доступности на свою почту? Подпишитесь на рассылку лучших историй от Mashable сегодня.

Для создания субтитров ключевую роль по-прежнему играют люди в рамках доступных технологий, управляемых искусственным интеллектом.

Люди играют ключевую роль в создании субтитров при использовании доступных технологий искусственного интеллекта.

Точность автоматического распознавания речи

Вовлечение людей в процесс

Выявление галлюцинаций

Мета запускает AudioCraft, открытый искусст...

Dyson только что выпустила еще одно приспос...

Илон Маск считает, что он может изменить по...

Google обновляет свои политики относительно...

Google скоро будет уведомлять вас о результ...

Овладение юридическими докладами с помощью ...

News