Представьте, что вы находитесь в гостях у своего друга за границей и осматриваете его холодильник в поисках подходящего завтрака. Изначально многие предметы кажутся вам незнакомыми из-за различий в упаковке и контейнерах. Несмотря на визуальные различия, вы начинаете понимать назначение каждого из них и выбирать в соответствии с вашими потребностями.

Инспирированный способностью людей взаимодействовать с незнакомыми объектами, коллектив из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) разработал систему под названием Feature Fields for Robotic Manipulation (F3RM). Эта система объединяет 2D-изображения с особенностями базовой модели в 3D-сцены, чтобы помочь роботам распознавать и ухватывать близлежащие предметы. F3RM способна интерпретировать текстовые подсказки на естественном языке, что делает ее полезной в реальных ситуациях с тысячами объектов, таких как склады и домашние хозяйства.

Эта система дает роботам способность понимать открытые текстовые запросы на естественном языке, что позволяет им манипулировать объектами. Это позволяет машинам понимать менее конкретные запросы и эффективно выполнять нужные задачи. Например, при запросе пользователя "подними высокую кружку", робот может найти и взять предмет, наилучшим образом соответствующий этому описанию.

Этот подход может помочь роботам в выборе товаров в больших центрах обработки заказов, где присутствует беспорядок и непредсказуемость. В таких складах роботам часто предоставляется описание инвентаря, который им необходимо распознать. Роботам нужно анализировать текст, связанный с объектами, независимо от различий в упаковке, чтобы доставлять заказы клиентам точно.

Например, центры обработки заказов интернет-магазинов могут содержать миллионы товаров, многие из которых роботы могут встретить впервые. Для работы в таком масштабе роботам необходимо понимать геометрию и семантику различных предметов, в том числе тех, которые находятся в ограниченном пространстве. Благодаря расширенным способностям F3RM в пространственном и семантическом восприятии, роботы могут стать более эффективными в обнаружении, подборе и упаковке объектов. В конечном итоге это поможет работникам фабрик более эффективно обрабатывать заказы клиентов.

Команда MIT отмечает, что способность F3RM воспринимать различные сцены может сделать его полезным в городских и домашних условиях. Например, этот подход может помочь персонализированным роботам идентифицировать и подбирать определенные предметы, облегчая взаимодействие в реальном мире.