На этой неделе MIT представил новую модель для обучения роботов, которая вместо использования стандартных наборов данных опирается на более крупные объемы информации, подобные тем, что применяются для обучения больших языковых моделей (LLM).

Обычно роботы учатся задачам через имитационное обучение, повторяя действия человека. Однако этот подход сталкивается с проблемами, когда условия изменяются — например, изменяется освещение, обстановка или появляются новые препятствия. В таких случаях роботы часто не имеют достаточных данных для адаптации.

Чтобы преодолеть эти ограничения, команда обратилась к архитектуре, подобной GPT-4, и разработала новую модель — Heterogeneous Pretrained Transformers (HPT). Она собирает и обрабатывает данные с различных сенсоров и сред. Благодаря трансформатору все эти разнородные данные объединяются в единый обучающий процесс, и чем больше модель, тем точнее выходные результаты.

Пользователи вводят данные о конструкции, конфигурации и задачах робота, и модель адаптирует навыки под конкретные цели.

Мы стремимся к созданию универсального “мозга” для роботов, который можно будет просто загрузить и использовать без дополнительной настройки. Пока мы на начальных этапах, но намерены продолжать исследования, надеясь, что увеличение масштаба приведет к прорыву в робототехнике, как это случилось с языковыми моделями.
Доцент CMU Дэвид Хелд.

Исследование частично поддержано Toyota Research Institute (TRI), которая на TechCrunch Disrupt в прошлом году представила метод быстрого обучения роботов за одну ночь. Недавно TRI объявила о партнерстве с Boston Dynamics, чтобы объединить свои наработки в обучении с передовыми робототехническими решениями.