Google представляет новые способы обучения роботов с использованием видео и экспансивных языковых моделей. #ENBLE

Блог-пост Google сегодня демонстрирует непрерывные исследования, направленные на улучшение понимания робототехники.

2024 год обещает стать годом великих достижений в области слияния генеративного искусственного интеллекта и робототехники. Вокруг этого сочетания возникло много шумихи и возбуждения, связанных с потенциальными применениями этой связи, включая области обучения и дизайна продуктов. Одна команда, в частности, исследователи DeepMind Robotics из Google, занимается изучением этой области и представляет результаты своих исследований в недавней статье на блоге. Они сосредоточены на том, чтобы помочь роботам лучше понять наши желания как людей.

Традиционно роботы были программированы для выполнения повторяющихся задач на протяжении своей жизни. Хотя они прекрасно справляются с такими функциями, они испытывают затруднения, сталкиваясь с изменениями или непреднамеренными ошибками. Здесь на сцену выходит проект AutoRT, недавно анонсированный компанией DeepMind, цель которого – использовать масштабные основные модели для различных целей. Система сочетает визуальную языковую модель (VLM) с флотом роботов, оснащенных камерами, чтобы иметь всесторонний обзор окружающей среды и объектов в ней.

В то же время, значительная языковая модель (LLM) предлагает роботам задачи, которые они могут выполнить с помощью своего оборудования, включая механизмы захвата. LLM-ы будут играть ключевую роль в создании роботов, способных понимать команды на естественном языке, что сократит необходимость профессиональных навыков в области хардкода. Система AutoRT уже прошла обширное тестирование за последние несколько месяцев, одновременно управляя до 20 роботов и выполняя 52 различных задачи. DeepMind записал впечатляющие 77 000 испытаний, включающие более 6 000 задач.

Кроме того, команда представила RT-Trajectory, который использует видео как способ обучения роботов. Многие исследовательские группы исследовали возможности обучения роботов на основе видеороликов из YouTube, но RT-Trajectory предлагает нечто новое. Он накладывает двухмерный эскиз движения роботической руки на видео, предоставляя визуальные подсказки для улучшения понимания моделью.

DeepMind сообщает, что обучение на основе RT-Trajectory позволило двукратно увеличить успех предыдущего метода RT-2, достигнув показателя в 63% по сравнению с предыдущим 29% на 41 задаче. Команда отмечает малую эффективность использования ценной информации о движении робота, содержащейся в существующих наборах данных. RT-Trajectory не только является еще одним шагом в разработке роботов, способных эффективно и точно действовать в новых ситуациях, но и открывает новые возможности для исследования этих наборов данных.

💡 Экспертный анализ: Интеграция генеративного искусственного интеллекта, обширных моделей и робототехники имеет огромный потенциал для различных отраслей. Роботы, способные понимать команды на естественном языке и адаптироваться к изменяющейся среде, могут стать бесценными помощниками в таких областях, как производство, здравоохранение и даже личное обслуживание. Исследователи, используя визуальные модели и обширные наборы данных, делают значительные шаги в преодолении разрыва между намерением человека и действиями робота.

🔍 Дополнительные исследования: 1. Как интеграция обширных моделей компании AutoRT может быть полезной для других отраслей помимо робототехники? 2. Какие потенциальные проблемы могут возникнуть при использовании генеративного искусственного интеллекта в обучении и принятии решений роботами? 3. Существуют ли какие-либо проблемы этики или нежелательные последствия, которые необходимо учесть при развёртывании роботов, способных понимать и выполнять команды на естественном языке? 4. Как улучшение показателя успешности RT-Trajectory по сравнению с предыдущими методами влияет на возможность использования видео в обучении роботов? 5. Могут ли знания, полученные с помощью RT-Trajectory из существующих наборов данных, быть полезными для других областей исследований, таких как компьютерное зрение или искусственный интеллект?

🔗 Связанные ресурсы: 1. Будь настоящим: четыре новые возможности, одна из которых сделает запись еще реалистичнее 2. AutoRT – официальный сайт

Приближаясь к 2024 году, слияние генеративного искусственного интеллекта и робототехники готово перевернуть представление о том, как машины взаимодействуют с миром. Непрерывные исследования DeepMind дают надежду на будущее, в котором роботы безупречно впишутся в нашу ежедневную жизнь, понимая наши потребности и выполняя задачи рядом с нами с выдающейся эффективностью и гибкостью.

👥 Присоединяйтесь к нашему дискуссии: Каковы ваши мысли о слиянии генеративного искусственного интеллекта и робототехники? Поделитесь своими мнениями и прогнозами в комментариях ниже! Не забудьте нажать кнопку “Поделиться” и распространить эту новость на социальных платформах. Давайте сделаем 2024 год годом роботов, работающих на основе искусственного интеллекта!