Группа исследователей из Принстонского университета, Стэнфордского университета и Google использовала модель OpenAI GPT-3 Davinci для разработки робота TidyBot, который может понимать инструкции на английском языке и выполнять работу по дому. Этот робот может автоматически выполнять такие задачи, как сортировка белья, сбор мусора с земли и уборка игрушек в соответствии с предпочтениями пользователя.

Модель GPT-3 — это модель глубокого обучения, входящая в семейство моделей GPT, которая может понимать и генерировать естественный язык. Модель обладает выраженными способностями к обобщению и может изучать сложные атрибуты объекта из большого количества текстовых данных. Исследователи использовали эту возможность для проектирования робота на основе нескольких примеров объектов, предоставленных пользователем, таких как "желтая рубашка в ящике, темно-фиолетовая рубашка в шкафу и белые носки в ящике", а затем пусть модель сделает вывод, что правила общих предпочтений пользователя и применит их к будущим взаимодействиям.

Исследователи говорят, считают, что возможности обобщения LLM (больших языковых моделей) хорошо соответствуют потребностям обобщения персонализированных роботов. Они отлично подходят для анализа характеристик сложных объектов и сопоставления, за счет специфической работы с вводными данными.

В отличие от традиционных подходов, требующих дорогостоящего сбора данных и обучения модели, разработанные в рамках экспериментов, роботы могут прямо "из коробки" обобщать область робототехники, используя мощные сводки, которые они извлекают из огромных объемов текстовых данных.

Исследователи уже усели продемонстрировать робота, способного сортировать белье на светлое и темное, перерабатывать банки из-под напитков, выбрасывать мусор, собирать сумки и столовые приборы, возвращать в ящик рассыпавшиеся вещи и убирать игрушки.

Исследователи сначала протестировали текстовый эталонный набор данных, в который были введены пользовательские предпочтения, и попросили модель создать правила персонализации для определения атрибуции элементов. Модель суммирует примеры в общие правила и использует сводки, чтобы определить, где разместить новые элементы. Базовая сцена определена в четырех комнатах по 24 сцены в каждой комнате. Каждая сцена содержит от двух до пяти мест для размещения предметов, и модель может классифицировать одинаковое количество видимых и невидимых элементов. Они написали, что тест показал точность на скрытых объектах 91,2%.

Когда они применили этот метод к реальному роботу TidyBot, они обнаружили, что он способен успешно поднимать 85% объектов. TidyBot был протестирован в восьми реальных сценариях, каждый с набором из десяти предметов, и запускал робота 3 раза в каждом сценарии. Согласно IT Home, помимо LLM, TidyBot также использует классификатор изображений под названием CLIP и детектор объектов под названием OWL-ViT.

Данфей Сюй, доцент Школы интерактивных вычислений Технологического института Джорджии, сказал о модели Google PaLM-E, что LLM дают роботам больше возможностей для решения задач:

Предыдущие системы планирования миссий в основном полагались на некоторую форму алгоритмов поиска или оптимизации, которые негибки и сложны в построении. LLM и мультимодальный LLM позволяют этим системам извлекать выгоду из данных в масштабе Интернета и легко использовать их для решения новых задач.