RT-2 от DeepMind делает управление роботом вопросом искусственного интеллекта в чате

RT-2 by DeepMind enables AI-powered robot control through chat

Робототехническая модель DeepMind версии 2 – это большая языковая модель, которая обучается не только на изображениях и тексте, но также на координатных данных о движении робота в пространстве. После обучения она может быть представлена изображением и командой и выдать план действий и координаты, необходимые для выполнения команды.

Ключевым элементом будущей робототехники будет то, как люди смогут инструктировать машины в режиме реального времени. Но какого рода инструкции нужны роботам, пока остается открытым вопросом в робототехнике.

Новое исследование от подразделения DeepMind компании Google предлагает использовать большую языковую модель, подобную ChatGPT от OpenAI, которая, получив связь между словами и изображениями, а также немного данных, записанных с робота, позволяет просто печатать инструкции для машины, так же просто, как разговаривать с ChatGPT.

Также: Лучшие чат-боты на искусственном интеллекте

Статья от DeepMind “RT-2: Модели видео-язык-действие переносят знания из веба в робототехническое управление”, написанная Энтони Броханом и коллегами и опубликованная в блоге, представляет RT-2, который они называют “моделью видео-язык-действие” (есть также соответствующий репозиторий на GitHub). Аббревиатура RT означает “робототехнический трансформер”.

Основной задачей является создание программы, которая на основе изображений и текста будет производить серию действий, которые будут иметь смысл для робота. “Для того чтобы модели видео-язык могли управлять роботом, их нужно обучить выводить действия”, – пишут Брохан и его команда. Основной идеей работы является то, что “мы представляем действия робота как еще один язык”. Это означает, что действия, записанные с робота, могут стать источником новых действий, подобно тому, как обучение на тексте из Интернета заставляет ChatGPT генерировать новый текст.

Также: Этот военный пес – часть большего мозга для технологий интерфейса человек-машин

Действия робота кодируются в робототехническом трансформере в виде координат в пространстве, известных как степени свободы. “Пространство действий состоит из 6 степеней свободы – позиционного и вращательного перемещения захватчика робота, а также уровня расширения захватчика робота и специальной дискретной команды для завершения эпизода, которую должна активировать политика для обозначения успешного завершения”, – говорится в статье.

Токены подаются в программу во время обучения в той же фразе, что и лексические токены слов и изображения. Координаты робота становятся просто еще одной частью фразы.

Действия робота кодируются в робототехническом трансформере в виде координат в пространстве, известных как степени свободы. Токены подаются в программу во время обучения в той же фразе, что и лексические токены слов и изображения. Координаты робота становятся просто еще одной частью фразы.

Использование координат является значительным достижением. Обычно физика роботов задается с помощью низкоуровневого программирования, отличного от языковых и нейронных сетей для обработки изображений. Здесь все смешано вместе.

Программа RT основана на двух предыдущих проектах Google – PaLI-X и PaLM-E, которые являются моделями видео-язык. Как следует из названия, модели видео-язык – это программы, объединяющие данные из текста и изображений, чтобы программа развивала способность связывать их, например, присваивать подписи изображениям или отвечать на вопросы о содержании изображений.

Также: Что такое Google Bard? Все, что вам нужно знать

В то время как PaLI-X занимается только задачами работы с изображениями и текстом, недавно представленный Google проект PaLM-E идет дальше, используя язык и изображение для управления роботом путем генерации команд в качестве своего вывода. RT идет дальше PaLM-E, генерируя не только план действий, но и координаты движения в пространстве.

RT-2 “является значительным прогрессом”, – сказал Сергей Левин, профессор отделения электротехники Университета Калифорнии в Беркли, в электронной переписке с ENBLE. “По сути, RT-2 можно рассматривать как полноценную версию того, что достигается PaLM-E + RT1 в одной модели”, – сказал Левин, который работал над проектом PaLM-E. “Это делает передачу знаний масштаба Интернета роботам более прямой и может стать более масштабируемым классом подходов в будущем”.

В случае с RT-2, это является преемником версии прошлого года, RT-1. Разница между RT-1 и RT-2 заключается в том, что первый RT был основан на небольшой языковой и видеопрограмме EfficientNet-B3. Но RT-2 основан на моделях большого языка PaLI-X и PaLM-E. Это означает, что они имеют гораздо больше нейронных весов или параметров, которые делают программы более искусными. У PaLI-X есть 5 миллиардов параметров в одной версии и 55 миллиардов в другой. У PaLM-E их 12 миллиардов.

Обучение RT-2 включает в себя комбинации изображений и текста, а также действия, извлеченные из записанных данных робота.

После того, как RT-2 был обучен, авторы проводят серию тестов, которые требуют, чтобы робот поднимал, перемещал и опускал предметы и т. д., все это, набирая команды на естественном языке и предъявляя картинку на запрос, как если бы они просили ChatGPT что-то составить.

Также: 7 продвинутых советов по написанию запросов в ChatGPT, которые вам нужно знать

Например, когда представлен запрос, где на изображении показан стол с кучей банок и конфетой:

Дано  Инструкция: Возьмите объект, отличающийся от всех остальных объектов

Робот сгенерирует действие в сопровождении координат, чтобы взять конфету:

Прогноз: План: взять шоколад rxbar. Действие: 1 128 129 125 131 125 128 127

Трехзначные числа являются ключами к кодовой книге координатных движений.

RT-2, получив запрос, будет генерировать как план действия, так и серию координат в spacer для выполнения этих действий.

Важным аспектом является то, что многие элементы задач могут быть совершенно новыми, никогда ранее не виденными объектами. “RT-2 способен обобщать различные реальные ситуации, требующие рассуждений, понимания символов и распознавания человека”, говорят они.

“Мы наблюдаем несколько возникающих возможностей” в результате. “Модель способна использовать навыки подбора и размещения, изученные на основе данных робота, для размещения объектов рядом с семантически обозначенными местами, такими как определенные числа или значки, несмотря на то, что такие указания отсутствуют в данных робота. Модель также может интерпретировать отношения между объектами, чтобы определить, какой объект выбрать и куда его поместить, несмотря на то, что такие отношения не предоставляются в роботе демонстраций”.

Также: 4 способа распознать генеративный АИ-хайп от реальности

В тестах против RT-1 и других программ RT-2, использующий PaLI-X или PaLM-E, гораздо более искусен в выполнении задач, в среднем выполняя около 60% задач с ранее не виденными объектами, по сравнению с менее чем 50% для предыдущих программ.

Также есть различия между PaLI-X, которая не разрабатывалась специально для роботов, и PaLM-E, которая разрабатывалась для них. “Мы также отмечаем, что хотя модель на основе более крупной PaLI-X показывает лучшую производительность в понимании символов, рассуждениях и распознавании людей в среднем, более маленькая модель на основе PaLM-E имеет преимущество в задачах, связанных с математическим рассуждением”. Авторы связывают это преимущество с “различной предварительной смесью обучения, используемой в PaLM-E, которая позволяет модели лучше выполнять математические вычисления, чем в основном визуально предварительно обученная PaLI-X”.

Авторы приходят к выводу, что использование программ, основанных на взаимодействии языка, изображений и действий, может “поместить область обучения роботов в стратегическое положение для дальнейшего улучшения с развитием в других областях”, чтобы этот подход мог получить выгоду от улучшения языка и обработки изображений.

Также: Отчет о состоянии IT: Генеративный ИИ вскоре станет широко распространенным, говорят 9 из 10 руководителей IT

Однако есть один нюанс, связанный с идеей управления роботом в режиме реального времени. Большие языковые модели требуют больших вычислительных мощностей, что становится проблемой для получения ответов.

“Расчетная стоимость этих моделей высока, и поскольку эти методы применяются в условиях, требующих высокочастотного управления, реальное время вывода может стать основным узким местом”, пишут они. “Интересным направлением для дальнейших исследований является изучение методов квантования и дистилляции, которые могут позволить таким моделям работать с более высокой скоростью или на более дешевом оборудовании”.