На ECAI 2024 исследовательская группа из Университета Бэйхан представила статью под названием «Использование иерархической симметрии в многокомпонентном обучении с подкреплением». В статье представлен новый метод под названием Иерархическая Эквивариантная Политическая Сеть (HEPN), которая использует иерархическую симметрию для улучшения эффективности выборки алгоритмов MARL.
Для проверки эффективности предложенного метода использовалась система захвата движения NOKOV для сбора данных о состоянии окружающей среды в реальном времени – а именно, данных о позах роев беспилотных транспортных средств.
Цитирование
Tian, Yongkai, et al. «Использование иерархической симметрии в многокомпонентном обучении с подкреплением». ECAI 2024. IOS Press, 2024: 2202–2209.
Научный контекст
Повышение эффективности выборки является фундаментальной проблемой в обучении с подкреплением. В контексте MARL эта проблема усиливается экспоненциальным ростом совместного пространства состояний и действий по мере увеличения числа агентов. Включение симметрии в MARL оказалось эффективным подходом к решению этой проблемы. Однако концепция иерархической симметрии, сохраняющей симметрию на разных уровнях многоагентной системы, остается в значительной степени неисследованной.
Вклад
Фокусируясь на кооперативных задачах в многоагентных системах (MAS), данная работа делает следующие вклады:
Предложена Hierarchical Equivariant Policy Network (HEPN), которая использует иерархическую симметрию в MAS для повышения эффективности алгоритмов MARL.
Предложена функция потери разделения, направленная на лучшее выявление иерархической структуры внутри MAS.
Оценена производительность HEPN в нескольких кооперативных многоагентных задачах. Экспериментальные результаты показывают, что HEPN достигает более быстрой скорости сходимости и более высоких наград при сходимости, тем самым подтверждая свою эффективность.
HEPN был развернут в физической многоагентной роботизированной среде, что подтвердило его эффективность в реальном мире.
Рисунок 1 Общая структура предложенной HEPN, состоящей из трех основных модулей: 1) Модуль эквивариантной кластеризации, используемый для извлечения иерархической структуры в многоагентных системах, группировки агентов со схожими характеристиками в группы для их использования в качестве агентов в системе высокого уровня; 2) Модуль эквивариантного ремаппинга, используемый для ремаппинга информации из системы высокого уровня обратно в систему низкого уровня; 3) Модуль действий, используемый для генерации окончательного выходного действия.
Симуляционные эксперименты
Авторы сравнивают HEPN с несколькими базовыми методами, включая: ESP (Exploiting Symmetry Prior), MLP-based MAPPO, GraphSAGE и GCS (Graph-based Coordination Strategy).
HEPN постоянно превосходил все базовые методы по скорости сходимости, награде и масштабируемости. Результаты демонстрируют надежность и эффективность HEPN, особенно в крупномасштабных сложных задачах. Исследования по удалению компонентов дополнительно показали, что включение иерархии и эквивариантности значительно повышает производительность, особенно в задачах с большей сложностью.
Рисунок 2 Кривые обучения для HEPN, MLP, GraphSAGE, ESP и GCS на трех кооперативных задачах. Каждый эксперимент повторялся пять раз с различными случайными начальными значениями для обеспечения надежности.
Таблица 1 Показывает влияние количества агентов на производительность задач, измеренную средней наградой при сходимости.
Эксперимент в реальных условиях
В статье также оценивается производительность алгоритма через подход Sim2Real. Обученные модели были развернуты на физических роботах, управляемых через ROS, с системами захвата движения NOKOV, обеспечивающими данные о позах роя роботов в реальном времени.
Демонстрация задач включает встречу, преследование и сбор ресурсов
Для каждой задачи HEPN сравнивался с лучшим выполняющим базовым методом. Результаты показывают, что агенты с HEPN завершали задачи более эффективно, тем самым подтверждая свою реальную эффективность.
Система захвата движения NOKOV использовалась для получения информации о состоянии окружающей среды в реальном времени – а именно, данных о позах роев беспилотных транспортных средств – что подтвердило эффективность предложенного алгоритма HEPN в реальных экспериментах.
Информация об авторах
Yongkai Tian: докторант, факультет компьютерных наук, Университет Бэйхан. Научные интересы: MARL, обучение с подкреплением на основе знаний.
Xin Yu: докторант, факультет компьютерных наук, Университет Бэйхан. Научные интересы: MARL, большие модели.
Yirong Qi: магистрант, факультет компьютерных наук, Университет Бэйхан. Научные интересы: MARL.
Li Wang: докторант, факультет искусственного интеллекта, Университет Бэйхан. Научные интересы: MARL, рассуждения на основе больших моделей.
Pu Feng: докторант, факультет компьютерных наук, Университет Бэйхан. Научные интересы: MARL, робототехника роев, планирование пути многоагентных систем.
Wenjun Wu: профессор факультета искусственного интеллекта, Университет Бэйхан. Научные интересы: коллективный интеллект, когнитивное моделирование, интеллектуальная разработка программного обеспечения.
Rongye Shi: доцент факультета искусственного интеллекта, Университет Бэйхан. Научные интересы: внедренные доменные знания в ИИ, физика-информированные нейронные сети, применение MARL в умных городах.
Jie Luo: доцент факультета компьютерных наук, Университет Бэйхан. Научные интересы: теория эволюции программного обеспечения, рассуждения на основе графов знаний, метрики коллективного интеллекта.