Air-M Визуальная реальность Платформа многопользовательского обучения с подкреплением для крупномасштабных воздушных беспилотных систем

В области роботизированного обучения с подкреплением проблема передачи данных из симуляции в реальность является постоянной проблемой при обучении и развертывании алгоритмов, особенно для задач, требующих больших объемов данных, таких как координированное управление крупномасштабными роями дронов. Исследовательская группа из Университета Бэйхан представила платформу Air-M в этой статье, которая устанавливает соответствие между реальным миром и симуляционной средой с использованием системы захвата движения NOKOV. Это позволяет реальным дронам взаимодействовать с виртуальными объектами через виртуальные сенсоры, что позволяет обучать политику сети с использованием виртуальных агентов и бесшовно передавать ее на реальные дроны. Исследование показывает, что платформа Air-M превосходит существующие технологии по эффективности обучения и переносимости, что делает её многообещающей платформой для применения роеобразных дронов.

Цитата

J. Lou, W. Wu, S. Liao и R. Shi, "Air-M: Визуальная платформа множественного агентов для обучения с подкреплением в крупномасштабных воздушных беспилотных системах," 2023 IEEE/RSJ Международная конференция по интеллектуальным роботам и системам (IROS), Детройт, штат Мичиган, США, 2023, стр. 5598-5605, doi: 10.1109/IROS55552.2023.10341405.

Схема платформы

Схема Air-M, а также среда моделирования и физическая испытательная площадка, проиллюстрированы на следующей диаграмме.

框架1.png

Основные компоненты Air-M: (a) контейнер AirSim, который предоставляет кинематические и динамические модели, а также данные сенсоров; (b) функции чертежа, которые предлагают структуру связи между агентами; и (c) маркерные точки, обнаруженные системой захвата движения, обеспечивают отображение реального мира в симуляционную среду.

A. Контейнеризация AirSim

Команда исследователей использовала Docker для инкапсуляции сервера AirSim и его зависимостей, а затем упаковала их в образ. Кроме того, мы сохраняем статические сетки различных сценариев и компилируем их в не редактируемые исполняемые файлы в качестве фоновых окружений. Когда пользователь запускает контейнер, AirSim загружает локальный файл настроек для генерации дронов заданного количества, открывает порты и предоставляет услуги.

Контейнер AirSim, который может выбирать различные сценарии и конфигурационные файлы для предоставления RPC-серверов и PixelStreaming.

B. Взаимодействие и коммуникация в Unreal Engine Blueprint

Транспортные средства внутри контейнера AirSim сопоставлены с общей симуляционной средой при условии, что они могут взаимодействовать с этими объектами в пределах ограниченного радиуса. Механизмы взаимодействия и связи реализованы с помощью чертежей UE4.

Визуализация контейнера AirSim и механизмов взаимодействия коммуникации между агентами.

C. Физическая экспериментальная испытательная платформа

Исследовательская группа создала внутреннюю испытательную площадку размером 3x1 метр, пропорционально отображённую в системе моделирования. Система захвата движения NOKOV предоставляет обратную связь о движении, позволяя смоделированным дронам корректировать свои позиции на основе собранных данных, тем самым способствуя оценке алгоритмов обучения с подкреплением.

Физическая экспериментальная платформа, она содержит внешнюю систему позиционирования, систему управления БПЛА и онтологию БПЛА.

Экспериментальные демонстрации

Чтобы продемонстрировать универсальность платформы Air-M, исследовательская группа отметила ее преимущества в алгоритмах обучения дронов с помощью двух исчерпывающих примеров тренировки.

Задача первая: Учимся искать

Цель состоит в том, чтобы обучить рой дронов находить толпы на городских улицах. Дроны обучаются в оффлайне с использованием централизованной информации, но выполняют задачу в децентрализованном режиме онлайн. Этот пример демонстрирует координированное поведение обученного роя дронов.

协作1.png

Сценарий для обучения кооперативному поиску, четыре БПЛА создаются в центре, а соответствующиеmission области приблизительно размещены заранее.

Задание два: Игра на захват

Цель состоит в том, чтобы с помощью 20 обученных синих дронов найти и захватить 20 красных дронов в течение определенного времени. При обнаружении цели дрон сообщает о ее местоположении в командный центр, переключается на алгоритм отслеживания и вызывает ближайших союзников для согласованного захвата.

Система захвата движения NOKOV предоставляет обратную связь о движении, позволяя реальным дронам взаимодействовать с виртуальными датчиками и объектами, тем самым способствуя исследованию обучения с подкреплением дронов в крупном масштабе.

Информация об авторе

Дзябин Лоу: аспирант Школы компьютерных наук университета Бейханг. Исследовательские интересы включают в себя рои́нтеллект, многоагентное обучение с подкреплением и ройробототехнику.

Вэньцзюн У: профессор и научный руководитель аспирантов в Университете Бэйхань. Научные интересы охватывают swarm intelligence и многоагентные системы, когнитивное моделирование и интеллектуальное обучение, интеллектуальные облачные сервисы и интеллектуальную инженерную разработку программного обеспечения.

Шухао Ляо: кандидат наук в Школе компьютерных наук Университета Бейхан. Научные интересы включают многопользовательское обучение с подкреплением и большие модели.

Ронгье Ши (Автор для переписки): доцент в Университете Бейхань. Научные интересы включают машинное обучение, обучение с подкреплением, многоагентные системы и их применение в умных городах и интеллектуальных транспортных системах.

Запечатлевая движение,
Создавая истории

Air-M: Визуальная реальность Платформа многопользовательского обучения с подкреплением для больших беспилотных воздушных систем

Демонстрация игры в баскетбол с захватом движения NOKOV

Применение систем захвата движения в исследованиях бесконечных роботов с проводным управлением

Применение систем захвата движений для изменения положения суставов робота и калибровки геометрических параметров

Сальто от Virtual Human