Ученые из Пенсильванского университета разработали систему DrEureka, предназначенную для обучения роботов с помощью больших языковых моделей искусственного интеллекта, таких как OpenAI GPT-4. Этот метод оказался более эффективным, чем обучение на основе последовательности задач в реальном мире, но требует особого внимания к особенностям «мышления» ИИ.
Платформа DrEureka (Domain Randomization Eureka) успешно прошла проверку на примере робота Unitree Go1 — механического четверонога с открытым исходным кодом. Она предполагает обучение робота в виртуальной среде с использованием рандомизации основных переменных, таких как коэффициент трения, масса, демпфирование, центр тяжести и другие. На основе нескольких запросов пользователей ИИ генерирует код, определяющий систему вознаграждений и наказаний для обучения робота в виртуальной среде. По результатам каждой симуляции ИИ анализирует производительность виртуального робота и предлагает улучшения. Важно отметить, что нейронная сеть способна быстро генерировать большие объемы сценариев и запускать их одновременное выполнение.
ИИ создает задачи с экстремальными значениями параметров на точках отказа или поломки механизма, при этом учитывая, что достижение или превышение этих значений ведет к штрафу за прохождение учебного сценария. Однако для безопасного написания кода ИИ требуются дополнительные инструкции, иначе нейросеть может стремиться к максимальной производительности, что может привести к негативным последствиям в реальном мире. Исследователи подчеркивают важность создания дополнительных функций безопасности, чтобы обученный робот мог успешно проходить испытания в реальной жизни.
Система DrEureka позволила обучить робота более эффективно, чем при обычном подходе, что привело к значительному увеличению скорости движения и расстояния, которое он может преодолеть в пересеченной местности. Этот результат объясняется разницей в подходах к обучению: человек разбивает задачу на несколько этапов, в то время как GPT обучает всему сразу. Кроме того, исследователи считают, что при наличии обратной связи из реального мира система DrEureka могла бы быть еще более эффективной, поскольку нейросеть могла бы изучать видеозаписи испытаний, что позволило бы ей учитывать больше аспектов реальной среды.