Почему Nvidia обучает роботов вращать ручки, и как генеративное искусственное интеллект помогает

Зачем Nvidia учит роботов вращать ручки и роль генеративного искусственного интеллекта в этом процессе

Роботическая рука Nvidia, крутящая карандаш

Роботическая рука Nvidia в симуляции.

Область робототехники, классическое применение искусственного интеллекта, недавно получила новый импульс благодаря новой и модной технологии генеративного искусственного интеллекта, таких программ, как модели языка от OpenAI, которые могут взаимодействовать с утверждениями на естественном языке.

Например, корпорация Google в этом году представила модель RT-2, которая может принимать изображение и команду, а затем выводить план действий и координаты для выполнения команды.

Также: Почему распоряжение Байдена об искусственном интеллекте ограничено неизбежной неопределенностью

Однако есть порог, который генеративные программы не могут пересечь: они могут выполнять “высокоуровневые” задачи, такие как планирование маршрута для робота к месту назначения, но они не могут выполнять “низкоуровневые” задачи, такие как управление сочленениями робота для точного управления машинными движениями.

Новое исследование от Nvidia, опубликованное в этом месяце, показывает, что модели языка могут быть ближе к преодолению этого разделения. Программа под названием Eureka использует модели языка для установки целей, которые в свою очередь могут быть использованы для управления роботами на низком уровне, включая выполнение точных манипуляций с помощью роботических рук.

Программа Eureka является лишь первым шагом во многих усилиях по преодолению этого разделения, поскольку она работает в компьютерной симуляции робототехники; она пока не управляет реальным физическим роботом.

“Использование [моделей языка] для изучения сложных задач низкоуровневой манипуляции, таких как вращение карандаша с мастерством, остаётся открытой проблемой”, – пишет ведущий автор Йеченг Джейсон Ма и его коллеги из Nvidia, университета Пенсильвании, Калтеха и университета Техаса в Остине в статье “Eureka: проектирование наград на уровне человека с помощью моделей языка”, опубликованной на сервере arXiv препринтов в этом месяце.

Также есть сопровождающая публикация блога от Nvidia.

Также: Как искусственный интеллект меняет отрасль IT с быстротой и драматизмом

Выводы Ма и его команды совпадают с мнением исследователей в области робототехники. По словам Сергея Левина, доцента кафедры электротехники Университета Калифорнии в Беркли, модели языка не являются лучшим выбором для “последнего кусочка, части, которая связана с тем, что робот на самом деле физически касается предметов в мире”, потому что такая задача “в основном лишена семантики”.

“Возможно, модель языка можно настроить на предсказание захватов, но неясно, насколько это действительно поможет, потому что что сообщает язык вам о том, где разместить пальцы на объекте?” – сказал Левин. “Может быть, он дает вам немного информации, но возможно, не настолько, чтобы внести реальную разницу”.

Статья Eureka решает проблему косвенно. Вместо того, чтобы заставлять модели языка указывать, что делать симуляции робота, они используются для создания “наград”, состояний целей, к которым робот может стремиться. Награды хорошо установлены в качестве метода в таком направлении, как обучение с подкреплением, форма искусственного интеллекта, на которую полагаются Левин и другие робототехники для обучения роботов.

Гипотеза Ма и ее команды заключается в том, что большая языковая модель может лучше формировать вознаграждения для обучения с подкреплением, чем человеческий AI программист.

Также: Генеративный ИИ не может найти свои собственные ошибки. Нужны ли нам лучше подсказки?

В процессе, известном как “эволюция вознаграждения”, программист указывает в качестве подсказки для GPT-4 все детали проблемы, данные о роботизированном моделировании – такие, как ограничения окружающей среды на действия робота – и опробованные вознаграждения, а затем просит GPT-4 улучшить их. GPT-4 затем создает новые вознаграждения и итеративно их тестирует.

Эволюция – это то, как называется программа: “Эволюционный универсальный набор вознаграждений для агентов”, или Eureka.

Схема работы Eureka: Прием базовых конструкций робота от человека-программиста, создание множества вознаграждений и их последовательное тестирование.

Ма и команда протестировали свое изобретение на множестве симуляций задач, таких как открытие ящика роботической рукой. Eureka, как они утверждают, “достигает результатов на уровне человека по созданию вознаграждений в различных средах RL, которые включают 10 различных морфологий роботов, включая четвероногих, квадрокоптеры, двуногих, манипуляторов, а также несколько умелых рук.”

Набор задач для роботической симуляции, для которых программа Eureka создает вознаграждения.

Они сообщают: “Без специфической подсказки или шаблонов вознаграждений, Eureka автономно создает вознаграждения, которые превосходят экспертные вознаграждения человека в 83% задач и обеспечивают среднюю нормализованную улучшение на уровне 52%”.

Один из наиболее ярких примеров того, чего они достигли, – это заставить симулированную роботическую руку крутить ручку, как скучающий школьник в классе. “Мы впервые демонстрируем быстрые маневры по кручению ручкой на симулированной антропоморфной Shadow Hand”, говорят они.

Авторы также сделали неожиданное открытие: когда они комбинируют улучшенные вознаграждения от Eureka с человеческими вознаграждениями, комбинация проявляет более высокую производительность на тестах, чем человеческие или Eureka вознаграждения по отдельности. Они предполагают, что причина в том, что у людей есть часть головоломки, которой не обладает программа Eureka, а именно знание обстановки.

“Человеческие разработчики в основном хорошо знают существенные переменные состояния, но менее опытны в создании вознаграждений на их основе”, пишут они. “Это имеет интуитивный смысл, так как определение существенных переменных состояния, которые должны быть включены в функцию вознаграждения, в основном имеет дело с здравым смыслом, но создание вознаграждений требует специализированных знаний и опыта в RL”.

Это указывает на возможное партнерство между человеком и ИИ, подобное GitHub Copilot и другим вспомогательным программам: “Вместе эти результаты демонстрируют возможность ассистентской поддержки вознаграждений от Eureka, идеально дополняющей знания человека о полезных переменных состояния и компенсирующей их недостаточную квалификацию в создании вознаграждений на их основе”.