В последние годы, по мере того как исследования в области роботов постоянно развиваются, функции, которые должны выполнять роботы, становятся все более разнообразными, а их соответствующие поведения – более сложными. Простое управление движением больше не является достаточным для удовлетворения этих потребностей, особенно для задач, где паттерн движения трудно захватить с помощью традиционных методов управления, которые по сути оказываются неэффективными. Это требует от роботов наличия более высокой способности к учебе, что позволяет им динамично взаимодействовать с окружающей средой для решения неизвестных ситуаций.
Машинное обучение может решить проблемы применения робототехники, находя эффективные стратегии для выполнения задач, когда традиционные методы оказываются неэффективными. Алгоритмы машинного обучения можно разделить на три основные категории: контролируемое обучение, неконтролируемое обучение и обучение с подкреплением. Обучение с подкреплением часто используется для сложных задач принятия решений. Однако из-за обширного пространства решений обучение с подкреплением требует постоянных проб и ошибок, что приводит к высокой сложности выборки, которая может ограничивать его применение в некоторых сценариях.
Одно из направлений обучения с подкреплением, имитационное обучение, включает в себя процесс обучения непосредственно на примерах экспертов. Имитационное обучение, также известное как Обучение с демонстрацией, считается способом снижения сложности выборки благодаря наличию данных о высококачественном поведении при принятии решений. В имитационном обучении демонстратор выполняет демонстрации траекторий в соответствии с требованиями задачи и фиксирует обучающую траекторию соответствующим образом, чтобы извлечь оптимизированную робототехническую траекторию через действия и закодированную регрессию.
Имитационное обучение включает в себя следующий процесс: человек демонстрирует действие, робот получает данные о траектории, используется обучающая модель для понимания действия, разрабатывается стратегия управления, и затем робот, действуя как эффективный исполнитель, контролирует движение для воспроизведения поведения, тем самым достигая обучения навыкам движения.
Оригинальная ссылка на видео (с YouTube): https://www.youtube.com/watch?v=hD34o3DGYcw
Приобретение поведения - После получения данных демонстрационной траектории их сначала необходимо предварительно обработать, что включает сегментацию движения, снижение размерности, фильтрацию, извлечение признаков и т.д. Предварительно обработанные данные затем используются в качестве входных данных для учебной модели, подготавливая их к кодированию.
Кодирование поведения включает в себя сопоставление наблюдаемых демонстрируемых действий с роботизированной системой, требуя эффективного метода представления с возможностью обобщения и устойчивостью. Это позволяет применять усвоенные способности в новых условиях с некоторой стойкостью к помехам.
Воспроизведение поведения - Для обучения имитации роботам необходимо оценивать метрики производительности имитации. Затем, через базовое управление движением, изученные стратегии управления отображаются на пространство актуаторов робота для достижения истинного воспроизведения.
Более того, широкоугольные объективы часто испытывают искажение изображения по краям, что может повлиять на точность извлечения 2D координат, если захватываемый объект находится на краю.
1) Обучение методом демонстрации (TbD). Обучение методом демонстрации подразумевает, что оператор физически перемещает робота для выполнения желаемого действия. Информация о состоянии в процессе, такая как углы суставов и моменты, записывается встроенными сенсорами робота, тем самым генерируя обучающие данные для моделей машинного обучения. Этот метод интуитивно понятен и имеет низкие требования к пользователю, что делает его широко используемым в сценариях применения легких промышленных роботов. Однако качество демонстрации зависит от гибкости и плавности движений оператора, и даже данные, зафиксированные экспертами, могут потребовать сглаживания или другой постобработки. Кроме того, из-за конструктивных особенностей этот метод эффективен для манипуляторов, но более сложен для других платформ, таких как четырехногие роботы или ловкие руки.
2) Телеп operation. Телеп operation — это еще один метод демонстрации, который можно использовать для обучения траекториям, выполнению задач, захвату или более сложным задачам. Телеп operation требует предоставления внешних управляющих сигналов роботу через джойстики, графические интерфейсы или другие средства. В настоящее время уже доступны различные интерактивные устройства, такие как тактильные устройства или устройства для взаимодействия в виртуальной реальности. В отличие от обучения путем ведения, телеп operation не требует, чтобы пользователь находился в одном месте с роботом и может быть реализован удаленно. Ограничения телеп operation включают необходимость дополнительной работы по разработке интерфейсов ввода, более длительный процесс обучения пользователей и риски удобства, связанные с внешними устройствами.
3) Пассивное наблюдение. Пассивное наблюдение в первую очередь включает в себя обучение роботов путем наблюдения за действиями демонстраторов. Демонстраторы выполняют задачи, используя свои собственные тела, а движения (как сами тела демонстраторов, так и объекты, которые они манипулируют) фиксируются с помощью внешних устройств. Эффективным методом для захвата этих данных является пассивная оптическая съёмка движения. В процессе этого робот не участвует в выполнении задачи, а выступает в роли пассивного наблюдателя. Этот метод относительно прост для демонстратора, поскольку не требует подготовки для процесса демонстрации. Он также подходит для роботов с множеством степеней свободы и нехуманоидных роботов (сценарии, в которых использование teach pendant затруднено). Этот подход требует отображения человеческих действий на действия, которые могут выполнять роботы, а сложностями являются затенение, быстрые движения и шум сенсоров, с которыми сталкиваются в процессе демонстрации.
Оригинальная ссылка на видео (с YouTube): https://www.youtube.com/watch?v=z8SfRrUvQ_4
Система захвата движений NOKOV использует принцип пассивной инфракрасной оптики, захватывая данные о движении путем отслеживания отражающих маркеров, прикрепленных к человеческому торсу (или целевому объекту, который манипулируется). Система NOKOV обладает высокой точностью позиционирования, с точностью статического повторения до 0.037 мм, абсолютной точностью до 0.087 мм, ошибкой линейной динамической траектории до 0.2 мм и ошибкой круговой траектории 0.22 мм. Более того, система захвата движений NOKOV может достигать частоты дискретизации до 380 Гц при полной разрешающей способности, удовлетворяя потребности в сборе данных во время демонстрации высокоскоростных движений. Инженеры NOKOV имеют более 5 лет проектного опыта и могут предоставить индивидуальные решения для различных условий площадки, эффективно снижая экспериментальные ошибки, вызванные препятствиями.
В настоящее время известные учреждения за границей, которые занимаются исследованием обучения путем подражания, такие как Лаборатория алгоритмов и систем обучения (LASA) при Швейцарском федеральном технологическом институте в Лозанне (EPFL), Робототехническая лаборатория Итальянского института технологии и команда под руководством профессора Яна Питерса при Техническом университете Дармштадта в Германии, все используют системы захвата движения в качестве важного средства для получения данных о демонстрационных траекториях.
Примеры применения захвата движения в исследованиях случаев обучения и преподавания
Харбинский институт технологии Точное управление для сборочных задач 3C
Исследователи предложили эффективную офлайн-программу через обучение имитации для автоматизации конвейеров сборки 3C. Процесс включает в себя два этапа. На первом этапе используется оптическое устройство захвата движения NOKOV для получения информации о положении рук человека во время процесса сборки. На втором этапе демонстрационные данные используются для разработки стратегий управления роботами. Сначала демонстрационные данные проходят предварительную обработку с использованием эвристики кластеризации на основе плотности для сегментации траекторий и алгоритма обнаружения аномалий на основе локального фактора выбросов. В дальнейшем на основе обработанных данных человеческие навыки сборки усваиваются через вероятностную стратегию обучения на основе моделей гауссовских смесей, что позволяет роботам выполнять те же задачи сборки в новых условиях.
Демонстрационные данные получены с использованием оптического оборудования для захвата движения NOKOV. Эта платформа может отслеживать три отражающих маркера, прикрепленных к руке оператора, предоставляя простой способ записи действий ручной сборки. Она также предлагает метод итеративной оптимизации пути в рамках обучения с подкреплением. Исследование демонстрирует эффективность стратегии итеративной оптимизации пути, показывая простой путь сборки «взять и положить».
Чунцинский университет почты и телекоммуникаций - Метод моделирования навыков наложения швов в хирургических роботах на основе имитационного обучения
Роботы-ассистенты в хирургии помогают преодолевать проблемы, с которыми сталкиваются хирурги во время традиционных операций, включая точность, рабочее пространство, расстояние и сложности сотрудничества. Основной задачей для достижения качественных автоматизированных операций, аналогичных действиям врача, является установление модели хирургической операции.
Команда под руководством профессора Ян Дэвея из Университета почты и телекоммуникаций Чунцина провела исследования по обучению навыкам шитья и моделированию, взяв в качестве объекта моделирования шитье поверхностных тканей. Они разработали систему сбора демонстрационных данных по ш stitches, чтобы захватывать данные во время демонстрации процедур шитья врачами.
Система включает в себя систему захвата движения NOKOV, хирургические щипцы, швы, нити и модели ран. Данные траектории, захваченные системой захвата движения, делятся на несколько динамических процессов согласно методу DMP (Динамические Примитивы Движения). Модель DMP обучается с использованием данных траектории оператора, чтобы в конечном итоге проверить способность модели симулировать процесс наложения швов и её адаптируемость к новым сценариям.
Уханьский университет - Прогнозирование траектории
Исследования, связанные с предсказанием траектории в Университете Уханя, сосредоточены на сферических летательных объектах. Эти исследования включают в себя идентификацию, позиционирование и предсказание траектории движущихся целей в реальном времени. Путем построения и обучения модели LSTM сеть успешно решает задачи идентификации, позиционирования и предсказания траектории сферических летательных объектов.
Эксперимент использует глубинную камеру Kinect и 8-камерную систему захвата движения NOKOV для создания аппаратной платформы системы и применяет систему ROS в качестве программной платформы для робота. Система откалибрована, включая внутренняя калибровка глубиной камеры Kinect и совместная калибровка систем захвата движения Kinect и NOKOV.
Идентификация движущихся объектов использует метод вычитания фона на основе смешанной гауссовой модели. Этот метод использует позиционирование в фазовом пространстве для получения информации о точках облака, соответствующих пиксельным точкам, применяет метод Гаусса-Ньютона для подгонки центра масс облака, чтобы получить пространственные координаты движущегося объекта, и использует фильтрацию Калмана для оптимизации траектории движения центра.
В экспериментах исследователи использовали метод на основе RNN для предсказания траектории движения объектов, применяя систему захвата движений NOKOV для сбора 1000 полных траекторий движения. Они использовали 80% этих последовательностей для обучения и оставшиеся 20% для тестирования. Разработанная ими сеть затем была применена для предсказания траектории нерегулярно движущегося объекта - ракетки для пинг-понга, что подтвердило способность сети к обобщению.
Ссылки:
[1] Юй Цзяньцзун, Мен Юсень, Жуан Сяоганг, Сюй Цунчжи. Применение имитационного обучения в исследовании роботизированных биомеханизмов [J]. Журнал Пекинского технического университета, 2016, 42(02): 210-216.
[2] Недавние достижения в обучении роботов на основе демонстрации Хариш Равичандар, Афанасиос С. Полидорос, Соня Чернова, Одетт Биллар Ежегодный обзор управления, робототехники и автономных систем 2020 3:1, 297-330.
[3] H. Hu, Z. Cao, X. Yang, H. Xiong и Y. Lou, "Оценка производительности оптических датчиков захвата движения для захвата движений сборки," в IEEE Access, том 9, стр. 61444-61454, 2021, doi: 10.1109/ACCESS.2021.3074260.
[4] Z. Zhao, H. Hu, X. Yang и Y. Lou, "Метод программирования роботов по демонстрации для точной манипуляции в сборке 3C," 2019 WRC Симпозиум по передовым робототехнике и автоматизации (WRCSARA), 2019, стр. 172-177, doi: 10.1109/WRC-SARA.2019.8931947.
[5] D. Yang, Q. Lv, G. Liao, K. Zheng, J. Luo и B. Wei, "Обучение на примерах: метод моделирования воспроизводимых навыков швов на основе динамических примитивов движения," 2018 Конгресс автоматизации Китая (CAC), 2018, стр. 4252-4257, doi: 10.1109/CAC.2018.8623781.
[6] Янг Минхуэй. Прогнозирование траектории движения объектов на основе рекуррентной нейронной сети [D]. Университет Уханя, 2019.