Системы компьютерного зрения иногда делают выводы о сцене, противоречащие здравому смыслу. Например, если робот обрабатывал сцену с обеденным столом, он может полностью игнорировать какие-то предметы, видимые любому человеку-наблюдателю, решить, что тарелка партии над столом, или посчитать, что вилка в тарелке, а не лежит рядом. И это можно было-бы счесть забавным, пока не приходит осознание того, что такие ошибки преследуют и системы автопилота.

Чтобы преодолеть эти ошибки, исследователи Массачусетского технологического института разработали структуру, которая помогает машинам видеть мир так, как воспринимают его люди. Их новая система искусственного интеллекта для анализа сцен учится воспринимать объекты реального мира всего по нескольким изображениям и воспринимает сцены с точки зрения этих изученных объектов.

Исследователи создали структуру, используя вероятностное программирование, подход ИИ, который позволяет системе проверять обнаруженные объекты на входные данные, чтобы увидеть, соответствуют ли изображения, записанные с камеры, любой возможной сцене. Вероятностный анализ позволяет системе сделать вывод, вызваны ли несовпадения плохой видимостью или ошибками в интерпретации сцены, которые необходимо исправить с помощью дальнейшей обработки.

На этом изображении показано, как 3DP3 (нижний ряд) дает более точные оценки позы объектов из входных изображений (верхний ряд), чем системы глубокого обучения (средний ряд).

Эта мера предосторожности позволяет системе обнаруживать и исправлять множество ошибок, которые мешают подходам глубокого обучения, которые также использовались для компьютерного зрения. Вероятностное программирование также позволяет сделать вывод о возможных отношениях контакта между объектами в сцене и использовать здравый смысл в отношении этих контактов, чтобы сделать вывод о более точных положениях объектов.

Помимо повышения безопасности беспилотных автомобилей, эта работа могла бы повысить производительность компьютерных систем восприятия, которые должны интерпретировать сложное расположение объектов, например, робота, которому поручено убирать беспорядок.

При разработке системы, получившей название "Восприятие трехмерной сцены посредством вероятностного программирования (3DP3)", исследователи использовали концепцию первых дней исследований ИИ, согласно которой компьютерное зрение можно рассматривать как "инверсию" компьютерной графики.

Компьютерная графика фокусируется на создании изображений на основе представления сцены, а компьютерное зрение можно рассматривать как обратное этому процессу. В предложенном методе модель кодируется с предварительными знаниями о 3D-сценах. Например, 3DP3 "знает", что сцены состоят из разных объектов, и что эти объекты часто лежат друг на друге, но могут принимать более сложные положения. Это позволяет модели рассуждать о сцене с большим смыслом.

Чтобы проанализировать изображение сцены, 3DP3 сначала узнает об объектах в этой сцене. После того, как было показано только пять изображений объекта, каждое из которых было снято под разным углом, 3DP3 изучает форму объекта и оценивает объем, который он займет в пространстве.

Система 3DP3 генерирует граф для представления сцены, где каждый объект является узлом, а линии, соединяющие узлы, указывают, какие объекты находятся в контакте друг с другом. Это позволяет 3DP3 производить более точную оценку расположения объектов. Подходы глубокого обучения основаны на изображениях глубины для оценки поз объекта, но эти методы не создают графическую структуру отношений контактов, поэтому их оценки менее точны.

Исследователи сравнили 3DP3 с несколькими системами глубокого обучения, каждая из которых предназначена для оценки поз 3D-объектов в сцене. Практически во всех случаях 3DP3 генерировал более точные позы, чем другие модели, и работал намного лучше, когда одни объекты частично закрывались другим. При этом 3DP3 требовалось увидеть только пять изображений каждого объекта, в то время как каждая из базовых моделей, которые он превосходил, требовала тысячи изображений для обучения.

В будущем исследователи хотели бы продвинуть систему дальше, чтобы она могла узнавать об объекте из одного изображения или одного кадра в фильме, а затем иметь возможность надежно обнаруживать этот объект в разных сценах. Они также хотели бы изучить использование 3DP3 для сбора обучающих данных для нейронной сети. Людям часто сложно вручную пометить изображения с помощью 3D-геометрии, поэтому 3DP3 можно использовать для создания более сложных меток изображений.