По словам профессора Джеймса Элдера, соавтора исследования Йоркского университета, глубокие сверточные нейронные сети (DCNN) видят вещи не так, как люди (через восприятие формы), что может быть вредным в реальных приложениях ИИ. Такой неутешительный вывод научная группа озвучила в недавно опубликованой статье в журнале iScience.

Исследование, проведенное Элдером, который возглавляет Йоркскую кафедру исследований человеческого и компьютерного зрения и является содиректором Йоркского центра искусственного интеллекта и общества, обнаружило, что модели глубокого обучения не могут уловить конфигурационную природу восприятия человеческой формы.

Чтобы изучить, как человеческий мозг и DCNN воспринимают целостные, конфигурационные свойства объекта, в исследовании использовались новые визуальные стимулы, известные как "Франкенштейны". По сути, это просто объекты, которые были разобраны и снова собраны неправильным образом. В результате у них есть все нужные и ключевые особенности, но не в тех местах.

Исследователи обнаружили, что в то время как Франкенштейны сбивают с толку зрительную систему человека, DCNN — нет, что свидетельствует о нечувствительности к конфигурационным свойствам объекта. Эти результаты объясняют, почему модели глубокого ИИ терпят неудачу при определенных условиях, и указывают на необходимость рассмотрения задач, выходящих за рамки распознавания объектов, чтобы понять визуальную обработку в мозгу. Эти глубокие модели, как правило, используют "ярлыки" при решении сложных задач распознавания. Хотя эти ярлыки могут работать во многих случаях, они могут быть опасны в некоторых реальных приложениях ИИ, над которыми работают специалисты крупных компаний.

Одним из таких приложений являются системы видеобезопасности дорожного движения. Объекты оживленного дорожного движения — транспортные средства, велосипеды и пешеходы — мешают друг другу и попадают в поле зрения водителя в виде мешанины разрозненных фрагментов. Мозг должен правильно сгруппировать эти фрагменты, чтобы определить правильные категории и расположение объектов. Система искусственного интеллекта для мониторинга безопасности дорожного движения, которая способна воспринимать только отдельные фрагменты, не справится с этой задачей, потенциально неправильно понимая риски для уязвимых участников дорожного движения.

По словам исследователей, изменения в обучении и архитектуре, направленные на то, чтобы сделать сети более похожими на мозг, не привели к конфигурационной обработке, и ни одна из сетей не могла точно предсказать суждения человека об объекте в каждом испытании. Ученые предполагают, что для того, чтобы соответствовать настраиваемой человеком чувствительности, сети должны быть обучены решать более широкий спектр объектных задач, помимо распознавания категорий.