RT-2 от DeepMind делает управление роботом вопросом искусственного интеллекта в чате
RT-2 by DeepMind enables AI-powered robot control through chat
![](https://www.zdnet.com/a/img/resize/182cfc240f66b36c9b8440aaa72b69b802a619af/2023/07/31/dcacd18a-42b7-4fd8-b9ef-c05a182163b6/deepmind-rt-2-picks-up-objects.jpg?auto=webp&width=1280)
Робототехническая модель DeepMind версии 2 – это большая языковая модель, которая обучается не только на изображениях и тексте, но также на координатных данных о движении робота в пространстве. После обучения она может быть представлена изображением и командой и выдать план действий и координаты, необходимые для выполнения команды.
Ключевым элементом будущей робототехники будет то, как люди смогут инструктировать машины в режиме реального времени. Но какого рода инструкции нужны роботам, пока остается открытым вопросом в робототехнике.
Новое исследование от подразделения DeepMind компании Google предлагает использовать большую языковую модель, подобную ChatGPT от OpenAI, которая, получив связь между словами и изображениями, а также немного данных, записанных с робота, позволяет просто печатать инструкции для машины, так же просто, как разговаривать с ChatGPT.
Также: Лучшие чат-боты на искусственном интеллекте
Статья от DeepMind “RT-2: Модели видео-язык-действие переносят знания из веба в робототехническое управление”, написанная Энтони Броханом и коллегами и опубликованная в блоге, представляет RT-2, который они называют “моделью видео-язык-действие” (есть также соответствующий репозиторий на GitHub). Аббревиатура RT означает “робототехнический трансформер”.
- Новый 3D-принтер M5C от AnkerMake отказывается от традиционного сен...
- Генеративное искусственное интеллект и четвертый вопрос Построение ...
- Говорящий помощник Google скоро станет еще мощнее благодаря генерат...
Основной задачей является создание программы, которая на основе изображений и текста будет производить серию действий, которые будут иметь смысл для робота. “Для того чтобы модели видео-язык могли управлять роботом, их нужно обучить выводить действия”, – пишут Брохан и его команда. Основной идеей работы является то, что “мы представляем действия робота как еще один язык”. Это означает, что действия, записанные с робота, могут стать источником новых действий, подобно тому, как обучение на тексте из Интернета заставляет ChatGPT генерировать новый текст.
Также: Этот военный пес – часть большего мозга для технологий интерфейса человек-машин
Действия робота кодируются в робототехническом трансформере в виде координат в пространстве, известных как степени свободы. “Пространство действий состоит из 6 степеней свободы – позиционного и вращательного перемещения захватчика робота, а также уровня расширения захватчика робота и специальной дискретной команды для завершения эпизода, которую должна активировать политика для обозначения успешного завершения”, – говорится в статье.
Токены подаются в программу во время обучения в той же фразе, что и лексические токены слов и изображения. Координаты робота становятся просто еще одной частью фразы.
Действия робота кодируются в робототехническом трансформере в виде координат в пространстве, известных как степени свободы. Токены подаются в программу во время обучения в той же фразе, что и лексические токены слов и изображения. Координаты робота становятся просто еще одной частью фразы.
Использование координат является значительным достижением. Обычно физика роботов задается с помощью низкоуровневого программирования, отличного от языковых и нейронных сетей для обработки изображений. Здесь все смешано вместе.
Программа RT основана на двух предыдущих проектах Google – PaLI-X и PaLM-E, которые являются моделями видео-язык. Как следует из названия, модели видео-язык – это программы, объединяющие данные из текста и изображений, чтобы программа развивала способность связывать их, например, присваивать подписи изображениям или отвечать на вопросы о содержании изображений.
Также: Что такое Google Bard? Все, что вам нужно знать
В то время как PaLI-X занимается только задачами работы с изображениями и текстом, недавно представленный Google проект PaLM-E идет дальше, используя язык и изображение для управления роботом путем генерации команд в качестве своего вывода. RT идет дальше PaLM-E, генерируя не только план действий, но и координаты движения в пространстве.
RT-2 “является значительным прогрессом”, – сказал Сергей Левин, профессор отделения электротехники Университета Калифорнии в Беркли, в электронной переписке с ENBLE. “По сути, RT-2 можно рассматривать как полноценную версию того, что достигается PaLM-E + RT1 в одной модели”, – сказал Левин, который работал над проектом PaLM-E. “Это делает передачу знаний масштаба Интернета роботам более прямой и может стать более масштабируемым классом подходов в будущем”.
В случае с RT-2, это является преемником версии прошлого года, RT-1. Разница между RT-1 и RT-2 заключается в том, что первый RT был основан на небольшой языковой и видеопрограмме EfficientNet-B3. Но RT-2 основан на моделях большого языка PaLI-X и PaLM-E. Это означает, что они имеют гораздо больше нейронных весов или параметров, которые делают программы более искусными. У PaLI-X есть 5 миллиардов параметров в одной версии и 55 миллиардов в другой. У PaLM-E их 12 миллиардов.
Обучение RT-2 включает в себя комбинации изображений и текста, а также действия, извлеченные из записанных данных робота.
После того, как RT-2 был обучен, авторы проводят серию тестов, которые требуют, чтобы робот поднимал, перемещал и опускал предметы и т. д., все это, набирая команды на естественном языке и предъявляя картинку на запрос, как если бы они просили ChatGPT что-то составить.
Также: 7 продвинутых советов по написанию запросов в ChatGPT, которые вам нужно знать
Например, когда представлен запрос, где на изображении показан стол с кучей банок и конфетой:
ДаноИнструкция: Возьмите объект, отличающийся от всех остальных объектов
Робот сгенерирует действие в сопровождении координат, чтобы взять конфету:
Прогноз: План: взять шоколад rxbar. Действие: 1 128 129 125 131 125 128 127
Трехзначные числа являются ключами к кодовой книге координатных движений.
RT-2, получив запрос, будет генерировать как план действия, так и серию координат в spacer для выполнения этих действий.
Важным аспектом является то, что многие элементы задач могут быть совершенно новыми, никогда ранее не виденными объектами. “RT-2 способен обобщать различные реальные ситуации, требующие рассуждений, понимания символов и распознавания человека”, говорят они.
“Мы наблюдаем несколько возникающих возможностей” в результате. “Модель способна использовать навыки подбора и размещения, изученные на основе данных робота, для размещения объектов рядом с семантически обозначенными местами, такими как определенные числа или значки, несмотря на то, что такие указания отсутствуют в данных робота. Модель также может интерпретировать отношения между объектами, чтобы определить, какой объект выбрать и куда его поместить, несмотря на то, что такие отношения не предоставляются в роботе демонстраций”.
Также: 4 способа распознать генеративный АИ-хайп от реальности
В тестах против RT-1 и других программ RT-2, использующий PaLI-X или PaLM-E, гораздо более искусен в выполнении задач, в среднем выполняя около 60% задач с ранее не виденными объектами, по сравнению с менее чем 50% для предыдущих программ.
Также есть различия между PaLI-X, которая не разрабатывалась специально для роботов, и PaLM-E, которая разрабатывалась для них. “Мы также отмечаем, что хотя модель на основе более крупной PaLI-X показывает лучшую производительность в понимании символов, рассуждениях и распознавании людей в среднем, более маленькая модель на основе PaLM-E имеет преимущество в задачах, связанных с математическим рассуждением”. Авторы связывают это преимущество с “различной предварительной смесью обучения, используемой в PaLM-E, которая позволяет модели лучше выполнять математические вычисления, чем в основном визуально предварительно обученная PaLI-X”.
Авторы приходят к выводу, что использование программ, основанных на взаимодействии языка, изображений и действий, может “поместить область обучения роботов в стратегическое положение для дальнейшего улучшения с развитием в других областях”, чтобы этот подход мог получить выгоду от улучшения языка и обработки изображений.
Также: Отчет о состоянии IT: Генеративный ИИ вскоре станет широко распространенным, говорят 9 из 10 руководителей IT
Однако есть один нюанс, связанный с идеей управления роботом в режиме реального времени. Большие языковые модели требуют больших вычислительных мощностей, что становится проблемой для получения ответов.
“Расчетная стоимость этих моделей высока, и поскольку эти методы применяются в условиях, требующих высокочастотного управления, реальное время вывода может стать основным узким местом”, пишут они. “Интересным направлением для дальнейших исследований является изучение методов квантования и дистилляции, которые могут позволить таким моделям работать с более высокой скоростью или на более дешевом оборудовании”.