Темный мир наборов данных для обучения ИИ вышел на свет.

Таинственный мир наборов данных для обучения ИИ открылся.

Новое исследование Инициативы по происхождению данных раскрывает тревожные практики при создании и распространении наборов данных, используемых для обучения систем искусственного интеллекта. Эти наборы данных являются ключевыми для развития передовых возможностей ИИ, но многие из них не указывают источники и лишены информации о лицензировании, что вызывает правовые и этические проблемы.

Согласно отчету The Washington Post от 25 октября ссылка, исследование проверило более 1800 популярных наборов данных с ведущих сайтов ИИ, таких как Hugging Face, GitHub и Papers With Code. Шокирующе, около 70% из них не указали условия лицензирования или неправильно описали разрешения по сравнению с намерениями создателей. Это оставляет разработчиков ИИ в неведении относительно потенциальных авторских ограничений или требований при использовании этих наборов данных – требуется больше информации.

“Люди не могли делать правильные вещи, даже если бы хотели”, – сказала Сара Хукер, соавтор исследования. Сомнительная лицензия демонстрирует более широкие проблемы в быстром мире разработки ИИ, где исследователи ощущают давление пропустить этапы, такие как документирование источников, спеша выпустить новые наборы данных.

Неправильные процедуры относительно условий лицензирования и разрешений создателей имеют далеко идущие последствия

Последствия этих наборов данных имеют далеко идущие последствия, так как они снабжают передовые системы искусственного интеллекта, такие как чат-боты и модели языка, включая Llama от Meta и модели GPT от OpenAI. Технические гиганты сталкиваются с судебными исками из-за текста, извлеченного из книг и веб-сайтов без разрешения. Критики утверждают, что компании по искусственному интеллекту должны платить источникам, таким как Reddit, за их данные, но проблемы с лицензированием создают препятствия.

За кулисами исследователи по ИИ “стирают” данные, скрывая их происхождение, пытаясь избавиться от ограничений. По сообщениям, ведущие лаборатории по искусственному интеллекту запрещают повторное использование результатов своих моделей для конкурирующих ИИ, но разрешают некоторые не коммерческие использования. Однако отсутствует должная документация о лицензировании.

Цель данного исследования – заглянуть внутрь этой непрозрачной экосистемы, обеспечивающей золотую лихорадку искусственного интеллекта. Интерактивные инструменты не определяют политику, но помогают информировать разработчиков, юристов и политиков. Анализ показал, что большинство данных поступает из академической среды, и главные источники – Википедия и Reddit. Однако данные, отражающие языки глобального юга, по-прежнему поступают главным образом от американских и европейских создателей и веб-сайтов.

“Создание набора данных обычно является самой незаметной частью цикла исследований и заслуживает признания, потому что на это требуется так много работы”, – сказала Хукер. Исследование движется в сторону более прозрачного и этичного искусственного интеллекта, подчеркивая необходимость лучших практик. Но остается еще много работы, чтобы раскрыть темную сторону данных, питающих неутомимое движение ИИ в будущее.

Кредит изображения: Фото от Shuki Harel; Pexels; Благодарим!