English 中文 日本語 Русский
<NOKOV> Показать баннер

Запечатлевая движение,
Создавая истории

Изучите наши кейс-стадии: Превращение движения в шедевры в различных отраслях

IROS 2025 Возникающие кооперативные стратегии для преследования и уклонения в загроможденных средах: подход многокомпонентного глубокого обучения с подкреплением на основе расширенных знаний

Клиент
Национальный университет обороны и технологий (NUDT)
Объем захвата
Приложение
БПЛА/НПС, Управление, Обучение, Планирование траектории, Избегание препятствий и столкновений, Формирование групп и роев
Объекты
Используемое оборудование

Аннотация

Команда профессора Хань Чжоу из Национального университета обороны технологий опубликовала подход с улучшенным знанием для глубокого обучения с подкреплением (DRL) для многоагентного преследования и уклонения на IROS 2025. Система захвата движения NOKOV предоставила данные о положении и скорости нескольких дронов Crazyflie для поддержки проверки предложенного алгоритма.

Статья под названием «Возникающие кооперативные стратегии для преследования-уклонения в загроможденных средах: подход с улучшенным знанием для многоагентного глубокого обучения с подкреплением» на IROS 2025 предлагает метод DRL с улучшенным знанием для кооперативного преследования-уклонения в сложных условиях и проверяет его эффективность и превосходство через обширные численные симуляции и реальные эксперименты. Оптическая система захвата движения NOKOV предоставила высокоточные данные о положении и скорости дронов Crazyflie в реальных экспериментах, что позволило провести верификацию предложенного алгоритма.


Фон

Для повышения автономности и адаптивности многоагентных систем в задачах кооперативного преследования модельно-свободное глубокое обучение с подкреплением (DRL) появилось как перспективная альтернатива. Однако большинство существующих подходов на основе DRL до сих пор полагаются на индивидуальные награды и сталкиваются с трудностями в сложных сценариях.


Вклад

Для стимулирования кооперативного поведения между воспринимающими ограниченно преследователями в загроможденной среде эта статья предлагает алгоритм двойного задержанного градиента детерминированной политики (KE-MATD3) на основе командной награды с усиленным знанием. Главные вклады можно резюмировать следующим образом:

1. Предложен подход MADRL на основе командной награды для кооперативного многоагентного преследования в загроможденных средах, где задача моделируется как децентрализованный частично наблюдаемый процесс принятия решений Маркова.

2. Введенный механизм с усиленным знанием (KE) использует идеи из усовершенствованного метода искусственного потенциального поля (IAPF), тем самым способствуя обучению сложных командных наград.

3. Возникновение кооперативного поведения среди преследователей проверено как в симуляциях, так и в физических экспериментах.

картинка1.jpg

Системная структура для задач кооперативного преследования

(a) Многоагентная среда преследования-уклонения. (b) Предложенный алгоритм KE-MATD3.

 

Численные симуляционные эксперименты

В численных симуляциях предложенный алгоритм KE-MATD3 сравнивался с несколькими базовыми алгоритмами, включая MATD3, MADDPG, MADDQN и их варианты.

Результаты показывают, что благодаря внедрению механизма с усиленным знанием, KE-MATD3 значительно улучшает как эффективность обучения, так и конечную производительность, достигая наибольшей вероятности успешного захвата и наименьшего уровня столкновений.

При различной плотности препятствий KE-MATD3 постоянно демонстрировал высочайшую производительность, показывая сильную способность к обобщению. Это указывает на то, что предложенный подход может эффективно стимулировать кооперативное поведение в загроможденных средах и достигать эффективного захвата целей.

 

Реальные эксперименты

Экспериментальная установка состояла из арены размером 6.4 × 11 × 2 м, включающей пять дронов Crazyflie 2.1, систему захвата движения NOKOV, двадцать цилиндрических препятствий (радиус: 20 см, высота: 1 м) и бортовой компьютер.

картинка.jpg

Результаты реальных экспериментов

Система захвата движения NOKOV отслеживала дроны Crazyflie с высокой точностью и предоставляла данные о текущем положении и скорости в реальном времени, которые передавались на бортовой компьютер через ROS.

Реальные эксперименты продемонстрировали, что предложенный метод безопасно и эффективно завершил задачу захвата, обеспечивая возникновение кооперативного поведения среди преследователей.

Результаты реальных экспериментов - видео

Система захвата движения NOKOV предоставила точные данные о положении и скорости нескольких дронов Crazyflie, поддерживая верификацию предложенного алгоритма.


Авторы

Ихао Сун — аспирант, Колледж интеллектуальных наук и технологий, Национальный университет обороны технологий. Исследовательские интересы: распределенное принятие решений для роев беспилотников.

Чжао Янь — Доцент-исследователь, Колледж автоматизации, Нанкинский университет аэронавтики и астронавтики. Исследовательские интересы: глубокое обучение, многоагентное обучение с подкреплением, кооперативное управление роями БПЛА и интеллектуальное принятие решений.

Хань Чжоу — Доцент, Колледж интеллектуальных наук и технологий, Национальный университет обороны технологий. Исследовательские интересы: кооперативное управление беспилотными системами.

Сяоцзя Сян — Профессор, Колледж интеллектуальных наук и технологий, Национальный университет обороны технологий, научный руководитель докторантуры. Исследовательские интересы: технологии беспилотных систем.

Цзе Цзян — Академик Китайской академии наук, Китайская академия технологии запуска ракет, научный руководитель докторантуры. Исследовательские интересы: навигация, управление и общее проектирование ракет-носителей.

Пред.
Применение систем захвата движения в исследованиях бесконечных роботов с проводным управлением

Демонстрация игры в баскетбол с захватом движения NOKOV

Игра UMI
2022-03-29

Применение систем захвата движения в исследованиях бесконечных роботов с проводным управлением

Сычуаньский университет
2022-06-17

Применение систем захвата движений для изменения положения суставов робота и калибровки геометрических параметров

Школа аэрокосмической инженерии и прикладной механики, Университет Тунцзи
2022-06-18

Оптимизация технологий совместной навигации и позиционирования человека и транспортного средства

Харбинский институт технологии
2022-07-15

Используя этот сайт, вы соглашаетесь с нашимиусловия, которые описывают наше использование файлов cookie.ЗАКРЫТЬ×

Контакт
Мы стремимся реагировать оперативно и свяжемся с вами через наших местных дистрибьюторов для дальнейшей помощи.
ИнженерияВиртуальная реальностьНауки о движенииРазвлечения
Я хотел бы получить предложение
Пекин NOKOV Science & Technology Co., Ltd (штаб-квартира)
Место нахожденияRoom820, China Minmetals Tower, район Чаоян, Пекин
Электронная почтаinfo@nokov.cn
Телефон+ 86-10-64922321
Объем захвата*
Цель*
Полные телаДроны/РоботыДругие
Количество
Тип камеры
Pluto1.3CMars1.3HMars2HMars4HПодводныйДругие/Я не знаю
Количество камер
46812162024Другие/Я не знаю