English 中文 日本語 Русский
<NOKOV> Показать баннер

Запечатлевая движение,
Создавая истории

Изучите наши кейс-стадии: Превращение движения в шедевры в различных отраслях

Использование иерархической симметрии в многокомпонентном обучении с подкреплением

Клиент
Университет Бэйхангля
Объем захвата
Приложение
MARL, иерархическая симметрия, эффективность выборки, управление роем
Объекты
УГА
Используемое оборудование

На ECAI 2024 исследовательская группа из Университета Бэйхан представила статью под названием «Использование иерархической симметрии в многокомпонентном обучении с подкреплением». В статье представлен новый метод под названием Иерархическая Эквивариантная Политическая Сеть (HEPN), которая использует иерархическую симметрию для улучшения эффективности выборки алгоритмов MARL.

Для проверки эффективности предложенного метода использовалась система захвата движения NOKOV для сбора данных о состоянии окружающей среды в реальном времени – а именно, данных о позах роев беспилотных транспортных средств.

Цитирование

Tian, Yongkai, et al. «Использование иерархической симметрии в многокомпонентном обучении с подкреплением». ECAI 2024. IOS Press, 2024: 2202–2209.

Научный контекст

Повышение эффективности выборки является фундаментальной проблемой в обучении с подкреплением. В контексте MARL эта проблема усиливается экспоненциальным ростом совместного пространства состояний и действий по мере увеличения числа агентов. Включение симметрии в MARL оказалось эффективным подходом к решению этой проблемы. Однако концепция иерархической симметрии, сохраняющей симметрию на разных уровнях многоагентной системы, остается в значительной степени неисследованной.

Вклад

Фокусируясь на кооперативных задачах в многоагентных системах (MAS), данная работа делает следующие вклады:

Предложена Hierarchical Equivariant Policy Network (HEPN), которая использует иерархическую симметрию в MAS для повышения эффективности алгоритмов MARL.

Предложена функция потери разделения, направленная на лучшее выявление иерархической структуры внутри MAS.

Оценена производительность HEPN в нескольких кооперативных многоагентных задачах. Экспериментальные результаты показывают, что HEPN достигает более быстрой скорости сходимости и более высоких наград при сходимости, тем самым подтверждая свою эффективность.

HEPN был развернут в физической многоагентной роботизированной среде, что подтвердило его эффективность в реальном мире.

 官网图1.jpg

Рисунок 1 Общая структура предложенной HEPN, состоящей из трех основных модулей: 1) Модуль эквивариантной кластеризации, используемый для извлечения иерархической структуры в многоагентных системах, группировки агентов со схожими характеристиками в группы для их использования в качестве агентов в системе высокого уровня; 2) Модуль эквивариантного ремаппинга, используемый для ремаппинга информации из системы высокого уровня обратно в систему низкого уровня; 3) Модуль действий, используемый для генерации окончательного выходного действия.

Симуляционные эксперименты

Авторы сравнивают HEPN с несколькими базовыми методами, включая: ESP (Exploiting Symmetry Prior), MLP-based MAPPO, GraphSAGE и GCS (Graph-based Coordination Strategy).

HEPN постоянно превосходил все базовые методы по скорости сходимости, награде и масштабируемости. Результаты демонстрируют надежность и эффективность HEPN, особенно в крупномасштабных сложных задачах. Исследования по удалению компонентов дополнительно показали, что включение иерархии и эквивариантности значительно повышает производительность, особенно в задачах с большей сложностью.

官网图02.jpg 

Рисунок 2 Кривые обучения для HEPN, MLP, GraphSAGE, ESP и GCS на трех кооперативных задачах. Каждый эксперимент повторялся пять раз с различными случайными начальными значениями для обеспечения надежности.

官网表1.jpg 

Таблица 1 Показывает влияние количества агентов на производительность задач, измеренную средней наградой при сходимости.

Эксперимент в реальных условиях

В статье также оценивается производительность алгоритма через подход Sim2Real. Обученные модели были развернуты на физических роботах, управляемых через ROS, с системами захвата движения NOKOV, обеспечивающими данные о позах роя роботов в реальном времени.

Демонстрация задач включает встречу, преследование и сбор ресурсов

Для каждой задачи HEPN сравнивался с лучшим выполняющим базовым методом. Результаты показывают, что агенты с HEPN завершали задачи более эффективно, тем самым подтверждая свою реальную эффективность.

Система захвата движения NOKOV использовалась для получения информации о состоянии окружающей среды в реальном времени – а именно, данных о позах роев беспилотных транспортных средств – что подтвердило эффективность предложенного алгоритма HEPN в реальных экспериментах.

Информация об авторах

Yongkai Tian: докторант, факультет компьютерных наук, Университет Бэйхан. Научные интересы: MARL, обучение с подкреплением на основе знаний.

Xin Yu: докторант, факультет компьютерных наук, Университет Бэйхан. Научные интересы: MARL, большие модели.

Yirong Qi: магистрант, факультет компьютерных наук, Университет Бэйхан. Научные интересы: MARL.

Li Wang: докторант, факультет искусственного интеллекта, Университет Бэйхан. Научные интересы: MARL, рассуждения на основе больших моделей.

Pu Feng: докторант, факультет компьютерных наук, Университет Бэйхан. Научные интересы: MARL, робототехника роев, планирование пути многоагентных систем.

Wenjun Wu: профессор факультета искусственного интеллекта, Университет Бэйхан. Научные интересы: коллективный интеллект, когнитивное моделирование, интеллектуальная разработка программного обеспечения.

Rongye Shi: доцент факультета искусственного интеллекта, Университет Бэйхан. Научные интересы: внедренные доменные знания в ИИ, физика-информированные нейронные сети, применение MARL в умных городах.

Jie Luo: доцент факультета компьютерных наук, Университет Бэйхан. Научные интересы: теория эволюции программного обеспечения, рассуждения на основе графов знаний, метрики коллективного интеллекта.


Пред.
Применение систем захвата движения в исследованиях бесконечных роботов с проводным управлением

Демонстрация игры в баскетбол с захватом движения NOKOV

Игра UMI
2022-03-29

Применение систем захвата движения в исследованиях бесконечных роботов с проводным управлением

Сычуаньский университет
2022-06-17

Применение систем захвата движений для изменения положения суставов робота и калибровки геометрических параметров

Школа аэрокосмической инженерии и прикладной механики, Университет Тунцзи
2022-06-18

Система подводного захвата движения, применяемая для разработки роботизированных дельфинов

Шэньчжэньский университет
2022-02-17

Используя этот сайт, вы соглашаетесь с нашимиусловия, которые описывают наше использование файлов cookie.ЗАКРЫТЬ×

Контакт
Мы стремимся реагировать оперативно и свяжемся с вами через наших местных дистрибьюторов для дальнейшей помощи.
ИнженерияВиртуальная реальностьНауки о движенииРазвлечения
Я хотел бы получить предложение
Пекин NOKOV Science & Technology Co., Ltd (штаб-квартира)
Место нахожденияRoom820, China Minmetals Tower, район Чаоян, Пекин
Электронная почтаinfo@nokov.cn
Телефон+ 86-10-64922321
Объем захвата*
Цель*
Полные телаДроны/РоботыДругие
Количество
Тип камеры
Pluto1.3CMars1.3HMars2HMars4HПодводныйДругие/Я не знаю
Количество камер
46812162024Другие/Я не знаю