OpenAI стремится улучшить искусственный интеллект с помощью более обширных данных для обучения.

OpenAI стремится улучшить искусственный интеллект путем использования более обширных данных для обучения.

Компания по исследованию искусственного интеллекта OpenAI анонсировала на этой неделе новую инициативу по диверсификации и расширению данных, используемых для обучения моделей искусственного интеллекта, называемую Data Partnerships. Через эту программу OpenAI планирует сотрудничать с организациями-партнерами для создания новых публичных и частных наборов данных для обучения ИИ.

С целью быть более честными и точными, OpenAI хочет представить лучшие данные

По словам OpenAI, целью является создание более справедливых, точных и полезных моделей, давая им возможность более широкого спектра данных, которые лучше отражают различные языки, культуры и темы. Существующие наборы данных искусственного интеллекта часто страдают от проблем, таких как западное превосходство, недостаток разнообразия и включение токсичного или предвзятого контента.

“Для того чтобы в итоге сделать [ИИ], который будет безопасен и полезен для всего человечества, мы хотели бы, чтобы модели ИИ глубоко понимали все предметные области, отрасли, культуры и языки, для чего требуется максимально широкий набор данных для обучения”, – говорится в блоге OpenAI, объявляющем о программе.

Модели и понимание в разных платформах возможно при помощи обучения

Сотрудничая с партнерами для сбора масштабных наборов данных в разных форматах, таких как текст, изображения, аудио и видео, OpenAI надеется улучшить понимание модели за пределами того, что сегодня можно легко получить из интернета. Компания гарантирует удаление любой конфиденциальной или личной информации и предлагает варианты для сохранения наборов данных в приватности.

OpenAI уже сотрудничает с организациями, такими как правительство Исландии, Free Law Project и Miðeind ehf, в рамках ранних версий программы. Однако некоторые эксперты высказывают скептицизм относительно того, сможет ли усилие успешно минимизировать глубоко укоренившиеся предвзятости, которые оказывают влияние на модели ИИ.

“В целом, мы ищем партнеров, которые хотят помочь нам научить ИИ понимать наш мир, чтобы он был наиболее полезным для всех”, – говорит OpenAI.

Диверсификация данных обучения ИИ для улучшения GPT-4

В то время как диверсификация данных обучения ИИ является необходимой, программа Data Partnerships также явно приносит пользу коммерческим моделям OpenAI, таким как GPT-4. Этот предполагаемый двойной мотив, а также отсутствие компенсации OpenAI для партнеров по данным, вызвали критику из-за обвинений в использовании компанией данных без разрешения.

Большая прозрачность в отношении сбора данных, усилий по смягчению предубеждений и коммерческих интересов OpenAI будет особенно важна для определения влияния программы Data Partnerships на общую картину искусственного интеллекта. Но эта программа свидетельствует о осознании того, что улучшение будущего ИИ требует начала с лучших, более репрезентативных данных.

Кредит за изображение: Andrew Neel; Pexels; Благодарим вас!