Несовершеннолетние работники обучают искусственный интеллект

Обучение искусственного интеллекта несовершеннолетними сотрудниками

Как большинство детей его возраста, 15-летний Хасан проводил много времени в интернете. До пандемии ему нравилось играть в футбол с местными детьми в его родном городе Буревала в регионе Пенджаб в Пакистане. Но блокировка из-за Covid сделала его своего рода отшельником, привязанным к своему мобильному телефону. “Я только выходил из своей комнаты, когда мне нужно было что-нибудь поесть”, говорит Хасан, который теперь 18-летний, и попросил идентифицировать его под псевдонимом, так как он боялся правовых действий. Но, в отличие от большинства подростков, он не прокручивал TikTok или играл в игры. Из своей детской комнаты он работал в глобальной цепочке поставок искусственного интеллекта, загружая и маркируя данные для обучения алгоритмов в некоторых из крупнейших компаний по искусственному интеллекту в мире.

Первоначально данные, используемые для обучения алгоритмам машинного обучения, помечаются людьми, и также требуется человеческое подтверждение для оценки точности данных. Эта пометка данных варьируется от простых задач – например, идентификации изображений уличных фонарей или сравнения похожих товаров электронной коммерции – до глубоко сложных, таких как модерация контента, где сотрудники классифицируют вредоносный контент в данных, собранных со всех уголков интернета. Эти задачи часто выдаются на аутсорсинговых платформах с ярмарки труда, таких как Toloka, где Хасан начал свою карьеру.

Друг посоветовал ему ситу, которая обещала работу в любое время и из любого места. Он обнаружил, что за час работы он зарабатывал около 1-2 долларов, что больше, чем национальный минимальный заработок, который составлял примерно 0,26 доллара на тот момент. Его мать – домохозяйка, а отец – рабочий-механик. “Можно сказать, что я из бедной семьи”, – говорит он. Когда наступила пандемия, он нуждался в работе больше, чем когда-либо. Запертый в своем доме, он искал информацию и обнаружил, что Toloka – это только вершина айсберга.

“Искусственный интеллект представляется как волшебный ящик, который может делать все”, – говорит Сайф Сэвидж, директор Гражданской лаборатории искусственного интеллекта Нортвестернского университета. “Люди просто не знают, что за кулисами есть рабочие-люди”.

По крайней мере, некоторые из этих рабочих-людей – это дети. Платформы требуют, чтобы работники были старше 18 лет, но Хасан просто указал данные своего родственника и использовал соответствующий способ оплаты, чтобы обойти проверки, и в этом он не был один. ENBLE разговаривала с тремя другими работниками в Пакистане и Кении, которые сказали, что также присоединились к платформам, будучи несовершеннолетними, и нашла доказательства того, что такая практика является широко распространенной.

“Когда я еще учился в средней школе, так много подростков обсуждали онлайн-работы и то, как они присоединялись, используя данные своих родителей”, – говорит один из работников, который присоединился к Appen в возрасте 16 лет в Кении и попросил остаться анонимным. После школы он и его друзья заходили в систему, чтобы выполнять задания по аннотации до поздней ночи, часто в течение восьми часов или более.

Appen отказалась дать комментарий, который можно было бы привести.

“Если мы подозреваем, что пользователь нарушил условия пользовательского соглашения, Toloka проведет проверку личности и запросит фотоудостоверение и фотографию пользователя, держащего удостоверение”, – говорит Гео Джикаев, руководитель операций Toloka.

Под влиянием глобальной индустрии искусственного интеллекта, глобальная индустрия маркировки и сбора данных ожидается достичь более 17,1 миллиарда долларов к 2030 году, согласно Grand View Research, компании по исследованию рынка и консалтингу. Площадки для сбора толпы, такие как Toloka, Appen, Clickworker, Teemwork.AI и OneForma, связывают миллионы удаленных работников-фрилансеров из стран глобального юга с компаниями, расположенными в Силиконовой долине. Платформы размещают микрозадания от своих клиентов в сфере технологий, среди которых были Amazon, Microsoft Azure, Salesforce, Google, Nvidia, Boeing и Adobe. Многие платформы также являются партнерами собственной платформы Microsoft по обработке данных – Universal Human Relevance System (UHRS).

Эти работники в основном базируются в Восточной Африке, Венесуэле, Пакистане, Индии и на Филиппинах, хотя существуют даже работники в лагерях беженцев, которые маркируют, оценивают и генерируют данные. Работники получают оплату за выполнение задачи, и вознаграждение варьируется от цента до нескольких долларов, хотя верхний предел, по словам работников, считается нечастым событием. “Характер работы часто напоминает цифровое рабство, но это необходимость для заработка на жизнь”, – говорит Хасан, который теперь также работает на Clickworker и Appen.

Иногда работников просят загружать аудио-, изображения и видео, которые вносят в наборы данных, используемые для обучения искусственного интеллекта. Работники обычно не знают точно, как их данные будут обработаны, но иногда это может быть довольно личным: на вкладке задач для работников Clickworker одна задача гласит: “Покажи своего ребенка! Помоги обучить искусственный интеллект, сняв 5 фотографий своего ребенка / ребенка!” За 2 евро (2,15 доллара). Следующая говорит: “Позволь своему несовершеннолетнему (в возрасте от 13 до 17 лет) принять участие в интересном проекте селфи!”

Некоторые задачи включают модерацию контента – помощь искусственному интеллекту в отличии просто невинного контента от того, который содержит насилие, хейт-спич или порнографические изображения. Хасан поделился видеозаписями экрана с задачами, доступными в тот день, когда он разговаривал с ENBLE. В одной задаче UHRS ему предлагалось определить “fuck”, “c**т”, “dick” и “bitch” из текстового материала. В Toloka ему показывались страницы с частично обнаженными телами, включая сексуализированные изображения, рекламу нижнего белья, открытую скульптуру и даже обнаженное тело с картинки в стиле Ренессанса. Задача заключалась в различении взрослого контента от безобидного, чтобы помочь алгоритму отличать сомнительные торсы от разрешенных.

Хасан вспоминает, как он модерировал контент, будучи несовершеннолетним на UHRS и говорит, что это продолжает негативно сказываться на его психическом здоровье. Он говорит, что контент был однозначно эксплицитным: отчеты о случаях изнасилования, взятые из статей, цитирующих судебные записи; хейт-спич из социальных медиа; описания убийств из статей; сексуализированные изображения несовершеннолетних; обнаженные изображения взрослых женщин; видео сексуального характера с женщинами и девочками с YouTube и TikTok.

Как говорит Хасан, многие удаленные работники из Пакистана являются несовершеннолетними. Он провел опрос среди 96 испытуемых в чат-группе Telegram с почти 10 000 работниками UHRS от имени ENBLE. Пятая часть опрошенных заявила, что им менее 18 лет.

Авайс, 20 лет, из Лахора, который согласился поделиться информацией при условии неразглашения его имени, начал работать на UHRS через Clickworker в 16 лет, после того, как обещал своей девушке поездку на день рождения к турецким озерам и заснеженным горам северного региона Пакистана. Его родители не могли помочь с деньгами, поэтому он решил попробовать работу с данными, использовав ID-карту друга. “Это было легко”, – говорит он.

Он работал на сайте ежедневно, в основном выполняя задачу “Тестирование сценариев общего назначения” от Microsoft. Задача заключалась в проверке точности главной страницы и поисковой системы. Другими словами, появляются ли на MSN главной странице фотографии автомобилей при выборе “автомобильные предложения”? Показываются ли при поиске “кошка” на Bing изображения кошек? Он зарабатывал $1-3 в день, но находил работу и скучной, и раздражающей. Иногда ему приходилось работать 10 часов за $1, потому что ему приходилось проходить неоплачиваемые тренировки для выполнения определенных задач. Даже после прохождения тренировки задачи могли закончиться и не быть доступных для выполнения; или если он нарушил ограничение времени, его учетная запись была приостановлена, говорит он. А кажется, что из ниоткуда, его забанили от его самой прибыльной задачи – это случается регулярно, говорят работники. Баны могут произойти по множеству причин, таких как дача неправильных ответов, слишком быстрые ответы или ответы, отличающиеся от среднего паттерна других работников. Он заработал всего $70. Это было почти достаточно, чтобы взять свою подругу из старших классов с собой в поездку, поэтому Авайс завершил сессию навсегда.

Clickworker не ответил на запросы для комментария. Microsoft отказался делать комментарии.

“В некоторых случаях, после прохождения тренировки, контингент ответов уже был заполнен для этого проекта и задача больше не доступна”, – сказал Джикаев. “Однако, если появятся другие аналогичные задачи, они смогут участвовать без дополнительной тренировки.”

Исследователи говорят, что они нашли свидетельства о несовершеннолетних работниках в индустрии AI в других частях мира. Джулиан Посада, доцент кафедры американских исследований в Йельском университете, который изучает труд и производство данных в индустрии AI, говорит, что он встречал работников в Венесуэле, которые присоединились к платформам еще будучи несовершеннолетними.

Возможно обойти проверку возраста довольно просто. Наиболее снисходительные платформы, такие как Clickworker и Toloka, просто просят работников заявить, что им 18 лет или старше; наиболее безопасные, такие как Remotasks, используют технологию распознавания лиц для сопоставления работников с их фото на удостоверении личности. Но и это может быть ненадежным, говорит Посада, приводя пример работника, который просто держал телефон перед лицом своей бабушки для прохождения проверки. Еще одним способом доступа несовершеннолетних к работе является совместное использование одной учетной записи в рамках семьи, говорит Посада. Он обнаружил, что в некоторых венесуэльских домах дети входят в учетные записи, когда родители готовят или делают покупки. По словам Посады, одна встреченная им семья из шести человек, имеющих детей возрастом от 13 лет, говорили, что у них всего одна учетная запись. Они управляли своим домом как фабрикой, говорит Посада, так что два члена семьи одновременно сидели за компьютерами и работали над маркировкой данных. “У них болела спина от того, что они сидели так долго. Так что они делали перерыв, и дети подставлялись”, – говорит он.

Физические расстояния между работниками, обучающими искусственный интеллект, и гигантами технологической индустрии на другом конце цепочки поставок – “детерриториализация интернета”, называет это Посада, создает ситуацию, когда рабочие силы по сути невидимы, функционируют под другим набором правил или вообще без них.

Отсутствие контроля над работниками даже может препятствовать клиентам узнать, сохраняют ли работники свой заработок. Один пользователь Clickworker в Индии, который просил остаться анонимным, чтобы избежать бана на сайте, рассказал ENBLE, что “нанимает” 17 работников UHRS в одном офисе, предоставляя им компьютер, мобильный и интернет в обмен на половину их дохода. Возраст его работников составляет от 18 до 20 лет, но из-за отсутствия требований по возрастной сертификации от Clickworker, он знает о подростках, использующих платформу.

В более сомнительных уголках индустрии краудсорсинга детские работники используются явно.

Услуги решения капчи (Completely Automated Public Turing test to tell Computers and Humans Apart), где платформы краудсорсинга платят людям за решение капч, являются малоизученной частью AI-экосистемы. Капчи созданы для различия ботов от людей, самым известным примером является reCaptcha от Google, которая просит пользователей идентифицировать объекты на изображениях для доступа на веб-сайт. Точная цель услуг, которые платят людям за их решение, остается загадкой для ученых, говорит Посада. “Но то, что я могу подтвердить, это то, что многие компании, включая reCaptcha от Google, используют эти услуги для тренировки моделей искусственного интеллекта”, – говорит он. “Таким образом, эти работники косвенно способствуют развитию ИИ”.

Google не ответил на запрос о комментарии в срок для публикации.

По данным исследования 2019 года ученых из Университета Чжэцзян в Ханчжоу, активно предлагаются как минимум 152 услуги, в основном с базовыми в Китае, где работает более полумиллиона человек на подпольном рынке капчи.

“Стабильная работа для каждого. Везде”, – так гласит одна из служб, Kolotibablo, на своем веб-сайте. Компания имеет промо-сайт, посвященный демонстрации отзывов своих работников, включая изображения молодых детей со всего мира. На одной из них улыбающийся мальчик из Индонезии показывает свою 11-летнюю дневниковую торт камере. “Я очень счастлив иметь возможность увеличить свои сбережения на будущее”, – пишет другой человек, не старше 7-8 лет. 14-летняя девочка в длинном платье Hello Kitty демонстрирует свое рабочее место на фотографии: ноутбук на розовом столе с изображением Барби.

Не все работники, которые были опрошены ENBLE, чувствуют разочарование от работы на платформах. В 17 лет большинство друзей Юниса Хамдина работали официантами. Но этот подросток из Пакистана решил вместо этого присоединиться к UHRS через Appen, работая на платформе три или четыре часа в день, помимо школы, зарабатывая до 100 долларов в месяц. Сравнение товаров, представленных на Amazon, было наиболее прибыльным заданием, с которым он сталкивался. “Мне нравится работать на этой платформе,” – говорит Хамдин, который получает оплату в долларах США – что редкость в Пакистане – и получает преимущества от выгодного курса обмена.

Но тот факт, что оплата за эту работу ничтожно мала по сравнению с зарплатами внутренних сотрудников технологических компаний, и что преимущества этой работы идут только от юга к северу, вызывает некомфортные параллели. “Мы должны учесть тип колониализма, который продвигается с помощью такого рода работы”, – говорит Савейдж из Civic AI Lab.

Хасан недавно был принят в программу бакалавриата по лабораторной технологии. Приложения остаются его единственным источником дохода, он работает с 8 утра до 6 вечера, а затем с 2 утра до 6 утра. Однако его доходы упали до всего 100 долларов в месяц, так как спрос на задания превышает предложение, поскольку больше работников присоединились после пандемии.

Он сокрушается о том, что задания UHRS могут оплачиваться всего 1 центом. Даже на более оплачиваемых работах, таких как случайные задания в социальных сетях на Appen, количество времени, которое он должен потратить на неоплачиваемое исследование, означает, что он должен работать пять или шесть часов, чтобы выполнить час реальной работы, все это, чтобы заработать 2 доллара, говорит он.

“Это цифровое рабство”, – говорит Хасан.