Для создания субтитров ключевую роль по-прежнему играют люди в рамках доступных технологий, управляемых искусственным интеллектом.

Люди играют ключевую роль в создании субтитров при использовании доступных технологий искусственного интеллекта.

Следует продолжать обсуждение необходимости управления искусственным интеллектом (ИИ) людьми, и в этом контексте значимую роль играют аудио-транскрипция, субтитры и автоматическое распознавание речи (АРР). Важность субтитров и субтитров для доступа к медиа-контенту и информации для зрителей, имеющих проблемы со слухом, возросла за последние несколько лет. Сторонники прав лиц с ограниченными возможностями активно выступают за улучшение субтитров, что становится все более актуальным с развитием сервисов потокового видео. Платформы на основе видео также активно применяют ИИ, например, YouTube уже начал тестирование новой функции ИИ, которая резюмирует видео, а TikTok исследует возможность использования собственного чат-бота.

С учетом растущего интереса к применению ИИ в качестве средства преодоления ограничений технологий, включение последних инструментов и услуг ИИ в автоматическую генерацию субтитров может показаться логичным шагом вперед.

3Play Media, компания, предоставляющая услуги доступности видео и субтитров, в своем недавно опубликованном отчете о состоянии автоматического распознавания речи в 2023 году изучила влияние инструментов генерации ИИ на субтитры, которые в основном используются зрителями, имеющими проблемы со слухом. Согласно результатам исследования, пользователи должны обращать внимание на гораздо большее количество факторов, чем простая точность, когда в игру вступают новые, быстро развивающиеся услуги ИИ.

Точность автоматического распознавания речи

В отчете 3Play Media была проанализирована частота ошибок слов (количество точно распознанных слов) и частота ошибок форматирования (точность как слов, так и форматирования в транскрибированном файле) различных движков АРР, или генераторов субтитров на основе ИИ. Различные движки АРР применяются в различных отраслях, включая новости, высшее образование и спорт.

“Высокое качество АРР не всегда приводит к высокому качеству субтитров”, – говорится в отчете. “Для частоты ошибок слов даже лучшие движки показали только около 90% точности, а для частоты ошибок форматирования – только около 80% точности, что недостаточно для законного соответствия и 99% точности, являющейся стандартом отрасли для доступности”.

Американский закон об инвалидах (ADA) требует от государственных и местных органов власти, бизнеса и некоммерческих организаций, обслуживающих общественность, “эффективно общаться с лицами, имеющими проблемы с общением”, включая предоставление услуг закрытых или реального времени субтитров для лиц, имеющих проблемы со слухом. В соответствии с правилами соответствия Федеральной комиссии связи (FCC) для телевидения, субтитры должны быть точными, синхронизированными, непрерывными и должны быть правильно размещены в “наибольшей возможной степени”.

Точность субтитров в различных рынках и сценариях использования также сильно варьировалась. “Новости и сети, кино и спорт являются самыми сложными для точного распознавания АРР”, – пишет 3Play Media, “поскольку в этих отраслях часто используется фоновая музыка, перекрывающая речь, и звуковые эффекты. В этих отраслях имеются самые высокие средние показатели ошибок частоты слов и ошибок форматирования, а наименьшая точность наблюдается в новостях и сетях”.

Хотя, в целом, результаты улучшились по сравнению с отчетом 3Play Media за 2022 год, компания обнаружила, что показатели ошибок все еще достаточно высоки для того, чтобы требовалось сотрудничество с редакторами для всех протестированных рынков.

Вовлечение людей в процесс

Модели транскрипции на всех уровнях, от потребителей до промышленного использования, уже много лет используют генерацию аудио-субтитров на основе ИИ. Многие уже применяют так называемые системы “человек-в-петле”, в которых многомодульный процесс включает как инструменты АРР (или ИИ), так и редакторов. Компании, такие как Rev, другой сервис по созданию субтитров и транскрипции, указывают на важность редакторов для синхронизации аудио-визуального контента, форматирования экрана и других необходимых шагов для полного доступа к визуальным медиа.

Твит может быть удален

Модели “человек-в-петле”, также известные как HITL, были предложены в разработке генеративного ИИ для лучшего контроля подразумеваемой предвзятости в моделях ИИ и для руководства генеративным ИИ с помощью решений, принимаемых людьми.

Инициатива доступности Всемирной паутины (W3C) давно придерживается своего мнения о контроле со стороны людей, как указано в ее руководстве по субтитрам и субтитрам. “Автоматически сгенерированные субтитры не удовлетворяют потребностям пользователей или требованиям доступности, если они не подтверждены полной точностью. Обычно требуется значительное редактирование”, – говорится в руководстве организации. “Автоматические субтитры можно использовать как отправную точку для разработки точных субтитров и транскриптов”.

И в отчете 3Play Media о важности живых, создаваемых людьми транскрипций в 2021 году также отмечаются схожие опасения.

“ИИ не обладает той же способностью контекстуализации, как у человека, что означает, что когда ASR неправильно понимает слово, есть возможность, что оно будет заменено на несвязанное, или вообще опущено”, – пишет компания. “Хотя в настоящее время нет определенного юридического требования к точности живой транскрипции, существующие федеральные и штатные нормативы по транскрипции для записанного контента утверждают, что доступные услуги должны предоставлять равный опыт зрения зрячего зрителя… В то время как ни ИИ, ни транскрибаторы-люди не могут обеспечить 100% точность, наиболее эффективные методы живой транскрипции включают оба, чтобы приблизиться к максимально возможной точности.”

Выявление галлюцинаций

В дополнение к более низким показателям точности при использовании только ASR, отчет 3Play Media отмечает явную озабоченность возможностью “галлюцинаций” ИИ, как фактически неверной информации, так и включения полностью выдуманных предложений.

В широком смысле, галлюцинации, основанные на ИИ, стали центральным аспектом среди арсенала жалоб на созданный ИИ текст.

В январе информационный надзорщик NewsGuard опубликовал исследование о легкости ChatGPT в генерации и распространении вводящих в заблуждение утверждений пользователям, выдающим себя за “плохих актеров”. Отмечается, что ИИ-бот 80 раз из 100 передавал дезинформацию о новостных событиях в ответ на ведущие подсказки, связанные с выборкой ложных повествований. В июне американский радиоведущий подал иск о клевете против OpenAI после того, как его чат-бот ChatGPT, по-видимому, предлагал ошибочные “факты” о ведущем пользователю, ищущем детали федерального судебного дела.

В прошлом месяце лидеры в области ИИ (включая Amazon, Anthropic, Google, Inflection, Meta, Microsoft и OpenAI) встретились с администрацией Байдена-Харриса “для того, чтобы помочь двигаться в сторону безопасного, надежного и прозрачного развития технологий искусственного интеллекта” перед возможным указом о ответственном использовании ИИ. Все присутствующие компании подписали серию из восьми обязательств для обеспечения общественной безопасности, безопасности и доверия.

Для интеграции ИИ в повседневную технологию и особенно для разработчиков, ищущих другие формы генерации текста с помощью ИИ как удобный путь к доступности, такие несоответствия, как галлюцинации, представляют такую же большую опасность для пользователей, объясняет 3Play Media.

“С точки зрения доступности, галлюцинации представляют еще более серьезную проблему: ложное изображение точности для глухих и слабослышащих зрителей”, – говорится в отчете 3Play. 3Play пишет, что, несмотря на впечатляющую производительность в производстве хорошо знаковых, грамматических предложений, проблемы, такие как галлюцинации, в настоящее время представляют высокие риски для пользователей.

Лидеры отрасли пытаются решить проблему галлюцинаций путем продолжения обучения, и некоторые из крупнейших лидеров в сфере технологий, такие как Билл Гейтс, очень оптимистичны. Но те, кому необходимы доступные услуги, не могут ждать, пока разработчики не доведут свои ИИ-системы до совершенства.

“Возможно, что эти галлюцинации будут сокращены благодаря точной настройке, но отрицательные последствия для доступности могут быть серьезными”, – заключает отчет 3Play Media. “Человеческие редакторы остаются незаменимыми в создании качественных заголовков, доступных для наших основных пользователей – людей с нарушениями слуха”.

Хотите больше историй о социальной полезности и доступности на свою почту? Подпишитесь на рассылку лучших историй от Mashable сегодня.