Улучшение обучения модели ИИ с помощью автоматизированного инструмента кураторства данных DatologyAI.

Недавно запущенный стартап под названием DatologyAI заявляет о возможности автоматически курировать большие наборы данных, используемые для обучения моделей искусственного интеллекта.

“`html

@DatologyAI создает технологию для автоматической сортировки данных обучения искусственного интеллекта | #ENBLE

Огромные наборы данных для обучения – вход в мощные модели искусственного интеллекта, но, часто, их ахиллесова пята. Предвзятости возникают из предвзятых паттернов, скрытых в больших наборах данных, например, изображения преимущественно белых генеральных директоров в наборе классификации изображения. И большие наборы данных могут быть беспорядочными, поступая в форматах, непонятных для модели — форматах, содержащих много шумов и лишней информации.

В недавнем опросе Deloitte среди компаний, внедряющих искусственный интеллект, 40% заявили, что проблемы, связанные с данными, включая тщательную подготовку и очистку данных, были среди основных проблем, затрудняющих их инициативы в области искусственного интеллекта. Отдельное исследование среди специалистов по обработке данных показало, что около 45% времени ученых уходит на задачи предварительной обработки данных, такие как “загрузка” и очистка данных.

Ари Моркос, который работает в индустрии искусственного интеллекта почти десять лет, хочет абстрагировать многие процессы подготовки данных вокруг обучения модели искусственного интеллекта – и он основал стартап, чтобы сделать именно это.

Представляем DatologyAI

Компания Моркоса, DatologyAI, разрабатывает инструменты для автоматической курирования наборов данных, подобных тем, которые используются для обучения ChatGPT от OpenAI, Gemini от Google и других подобных моделей искусственного интеллекта. Платформа может определить, какие данные являются наиболее важными в зависимости от применения модели (например, написание электронных писем), способы, которыми набор данных может быть дополнен дополнительными данными, и как его следует пакетировать во время обучения модели.

“Модели-то такие, какую питают – модели отражают данные, на которых они обучаются,” сказал Моркос ENBLE в электронном интервью. “Однако не все данные созданы равными, и некоторые обучающие данные намного более полезны, чем другие. Обучение моделей на правильных данных правильным образом может оказать драматическое воздействие на итоговую модель.”

Оптимизация курирования наборов данных искусственного интеллекта

DatologyAI нацелена на оптимизацию всех форм курирования наборов данных искусственного интеллекта. Состав обучающего набора данных влияет на практически все характеристики модели, обученной на нем – от производительности модели в задачах до ее размера и глубины знаний области. Более эффективные наборы данных могут сократить время обучения и получить более компактную модель, сэкономив на вычислительных расходах. Тем временем, наборы данных, которые включают особенно разнообразный набор образцов, могут более ловко справляться с эзотерическими запросами.

Поскольку интерес к GenAI находится на историческом пике, расходы на внедрение искусственного интеллекта находятся в центре внимания руководителей. Многие компании предпочитают настраивать существующие модели или выбирать управляемые службы поставщиков через API. Однако другие создают модели на основе кастомных данных с нуля и тратят значительные ресурсы.

“Компании собрали огромные объемы данных и хотят обучить эффективные, производительные, специализированные модели искусственного интеллекта, способные максимизировать выгоду для своего бизнеса,” сказал Моркос. “Однако эффективное использование этих массивных наборов данных представляет собой невероятную задачу и, если это сделано неправильно, приводит к менее эффективным моделям, требующим больше времени для обучения и [большему] размеру, чем необходимо.”

Сила DatologyAI

DatologyAI выделяется из других инструментов предварительной обработки и курирования данных своей способностью масштабироваться до “петабайт” данных в любом формате, включая текст, изображения, видео, аудио, таблицы и более экзотические модальности. Она может определить, какие понятия в наборе данных требуют образцов более высокого качества, и какие данные могут заставить модель вести себя непредсказуемо.

“Решение этих проблем требует автоматического определения понятий, их сложности и того, насколько много избыточности действительно необходимо,” сказал Моркос. “Аугментация данных, часто с использованием других моделей или синтетических данных, невероятно мощная, но должна быть сделана тщательно, целенаправленно.”

Эффективность автоматического курирования данных

Тем не менее, вопрос остается: насколько эффективна технология DatologyAI? Есть основания для скепсиса. История показывает, что автоматизированное курирование данных не всегда работает так, как задумано. Немецкая неправительственная организация LAION была вынуждена снять c алгоритмически курированного обучающего набора данных искусственного интеллекта после обнаружения изображений детского сексуального насилия. Модели, обученные на смешанных наборах данных, даже если они были отфильтрованы по токсичности, показались способными генерировать токсичное содержимое.

“““html

Некоторые эксперты утверждают, что ручная курирование является необходимостью для достижения сильных результатов с моделью ИИ. Сегодня крупнейшие поставщики полагаются на человеческих экспертов и аннотаторов, чтобы формировать и уточнять свои наборы данных для обучения.

Моркос настаивает на том, что инструменты DatologyAI не призваны полностью заменить ручное курирование, а скорее предлагают рекомендации, которые могут не прийти в голову данным ученым, особенно предложения, касающиеся сокращения размеров набора данных для обучения. У него есть опыт в этой области, поскольку он является соавтором научной статьи о эффективности обрезки набора данных при сохранении производительности модели.

“Идентификация правильных данных в масштабе является крайне сложной задачей и проблемой фундаментального исследования”, – сказал Моркос. “[Наш подход] приводит к моделям, которые обучаются значительно быстрее, одновременно повышая производительность на последующих задачах”.

Поддержка индустрии и инвестиции

Технологии DatologyAI получили поддержку и инвестиции от гигантов в сфере технологий и ИИ. Главный ученый Google Джефф Дин, главный ученый по искусственному интеллекту Meta Ян Лекунь, основатель Quora и член правления OpenAI Адам Д’Анджело и Джеффри Хинтон, пионер в современных методиках искусственного интеллекта, все инвестировали в стартап на начальном этапе его развития.

Другие известные ангельские инвесторы включают лидеров из Cohere, Contextual AI, Intel AI и изобретателей моделей бесконечной диффузии. Этот внушительный список знаменитостей в области искусственного интеллекта указывает на то, что утверждения Моркоса могут иметь основания.

“Модели столь же хороши, на скольких данных они обучены, но определение правильных обучающих данных среди миллиардов или триллионов примеров является крайне сложной проблемой”, – сказал Лекунь ENBLE. “Ари и его команда в DatologyAI являются одними из ведущих экспертов в мире в этой области, и я считаю, что продукт, который они создают, чтобы сделать доступ к курированию данных высокого качества доступным для всех, кто хочет обучить модель, является крайне важным для помощи в создании работы с ИИ для всех”.

Будущее обучения моделей искусственного интеллекта

Поскольку модели искусственного интеллекта становятся все более распространенными в различных отраслях, нельзя недооценивать значение эффективной и эффективной куратории данных. DatologyAI нацелена на решение проблем, с которыми сталкиваются компании при обучении моделей искусственного интеллекта путем автоматизации процесса подготовки данных.

В будущем мы можем ожидать появления аналогичных стартапов в этой сфере, предлагающих инновационные решения для упрощения куратории данных для ИИ. Сотрудничество между экспертами по искусственному интеллекту, учеными-данными и компаниями будет ключевым в продвижении отрасли и в улучшении производительности и этических аспектов моделей на основе искусственного интеллекта.

Q&A

Q: Как работает автоматизированная куратория данных? A: Автоматизированная куратория данных включает использование алгоритмов искусственного интеллекта и техник машинного обучения для анализа больших наборов данных, идентификации важной информации, устранения предвзятости и дополнения набора данных дополнительной актуальной информацией. Это помогает в очистке и подготовке данных для обучения моделей ИИ.

Q: Каковы преимущества использования инструментов автоматизированной куратории данных? A: Инструменты автоматизированной куратории данных могут существенно сократить время и усилия, затрачиваемые на подготовку тренировочных данных для моделей ИИ. Они помогают выявить предвзятости, убрать шум и улучшить общее качество набора данных. Это приводит к лучшей производительности моделей, более быстрому обучению и снижению издержек.

Q: Есть ли риски или ограничения, связанные с автоматизированной кураторией данных? A: Хотя автоматизированная куратория данных предлагает много преимуществ, есть и риски и ограничения. Автоматизированные алгоритмы не всегда могут точно определить предвзятости или проблемные данные. Важно иметь человеческих экспертов вовлеченных в процесс куратории, чтобы обеспечить этические соображения и решить потенциальные проблемы.

Q: Как компании могут использовать инструменты автоматизированной куратории данных для своих инициатив в области ИИ? A: Компании могут использовать инструменты автоматизированной куратории данных, такие как DatologyAI, для упрощения процесса подготовки данных для обучения модели ИИ. Используя эти инструменты, они могут улучшить качество своих наборов данных, уменьшить предвзятости и оптимизировать времена обучения. Это в конечном итоге приведет к лучшей производительности моделей ИИ и более эффективной реализации ИИ.

Q: Какую роль играет ручная куратория в подготовке наборов данных для искусственного интеллекта? A: Ручная куратория по-прежнему играет важную роль в подготовке наборов данных для искусственного интеллекта. Человеческие эксперты и аннотаторы играют важную роль в формировании и уточнении тренировочных наборов данных. Они могут обладать экспертизой в отрасли, гарантировать этические соображения и обрабатывать граничные случаи, с которыми автоматизированные алгоритмы могут испытывать затруднения. Ручная куратория дополняет автоматизированные инструменты и помогает добиться более сильных результатов при обучении модели искусственного интеллекта.

Q: Каковы затраты на использование инструментов автоматизированной куратории данных? A: Хотя существуют начальные затраты на принятие инструментов автоматизированной куратории данных, долгосрочные выгоды превышают инвестиции. Эти инструменты могут существенно сократить время обучения и вычислительные издержки за счет оптимизации набора данных и удаления ненужной информации. Экономия может быть значительной, особенно для компаний, обучающих масштабные модели искусственного интеллекта.

Заключение

“““html

Средство автоматизированной куратории данных DatologyAI открывает новые возможности для области обучения моделей ИИ. Путем оптимизации процесса подготовки набора данных и предоставления ценных идей оно помогает компаниям оптимизировать свои инициативы в области ИИ. Хотя автоматизированная куратория данных не является заменой ручной куратории, она дополняет человеческое экспертное мнение и повышает эффективность и эффективность обучения моделей ИИ. По мере развития этой технологии мы можем ожидать дальнейших достижений в этой области, что приведет к созданию более мощных и этичных моделей ИИ.

References:Deloitte surveyGenAI interestGenAI reputationLAION forced to take down AI training datasetToxic content generation by ChatGPTDataset trimming academic paperGoogle’s reliance on human expertsDatologyAI’s investors and funding

Не забудьте поделиться этой статьей с единомышленниками-энтузиастами ИИ, которые хотят революционизировать способ куратории данных для моделей ИИ! 💻🚀💡

“`