Представьте себе оранжевого кота. А теперь представьте того же кота, но с угольно-черной шерстью. А теперь представьте кошку, идущую вдоль Великой Китайской стены. При этом в результате быстрой серии активаций нейронов в вашем мозгу возникнут вариации представленной картины, основанные на ваших предыдущих знаниях о мире.
Другими словами, людям легко представить себе объект с разными атрибутами. Но, несмотря на достижения в области глубоких нейронных сетей, которые соответствуют или превосходят человеческие возможности в определенных задачах, компьютеры все еще не обзавелись человеческим навыком "воображения".
Теперь исследовательская группа Университета Южной Калифорнии, разработала ИИ, который использует человеческие способности, чтобы представить себе невиданный ранее объект с разными характеристиками. Документ под названием Zero-Shot Synthesis with Group-Supervised Learning был опубликован на Международной конференции по обучающим репрезентациям.
Проблема обобщения
Например, вы хотите создать систему ИИ, которая генерирует изображения автомобилей. В идеале вы должны предоставить алгоритму несколько изображений автомобиля, и он сможет сгенерировать множество типов автомобилей — от Porsche до Pontiacs и пикапов любого цвета и под разными углами.
Это одна из долгожданных целей ИИ: создание моделей, которые можно экстраполировать. Это означает, что с учетом нескольких примеров модель должна уметь извлекать базовые правила и применять их к огромному количеству новых примеров, которых она раньше не видела. Но машины чаще всего обучаются на типовых объектах, например пикселях, без учета атрибутов объекта.
В этом новом исследовании исследователи пытаются преодолеть это ограничение, используя концепцию, называемую распутыванием. Распутывание можно использовать для создания дипфейков, например, распутывая движения человеческого лица и идентичность. Делая это, люди могут синтезировать новые изображения и видео, которые заменяют личность исходного человека другим человеком, но сохраняют исходное движение.
Точно так же новый подход берет группу образцов изображений — а не по одному образцу за раз, как это делали традиционные алгоритмы — и обнаруживает сходство между ними, чтобы достичь того, что называется "управляемым обучением распутанному представлению". Затем он рекомбинирует эти знания для достижения "управляемого синтеза нового изображения" или того, что вы могли бы назвать воображением.
Это похоже на то, как мы, люди, экстраполируем: когда человек видит цвет одного объекта, мы можем легко применить его к любому другому объекту, заменив исходный цвет новым. Используя свою технику, группа создала новый набор данных, содержащий 1,56 миллиона изображений, которые могут помочь в будущих исследованиях в этой области.
Понимание мира
Хотя распутывание запутанных вещей не является новой идеей, исследователи говорят, что их структура может быть совместима практически с любыми типами данных или знаний. Это расширяет возможности для приложений. Например, разделение знаний, связанных с расой и полом, для создания более справедливого ИИ путем полного удаления чувствительных атрибутов из уравнения.
В области медицины это может помочь врачам и биологам открыть более полезные лекарства, отделив функцию лекарства от других свойств, а затем рекомбинируя их для синтеза нового лекарства. Наполнение машин воображением также может помочь в создании более безопасного ИИ, например, позволяя автономным транспортным средствам воображать и избегать опасных сценариев, ранее невиданных во время обучения.
Этот новый подход распутывания впервые по-настоящему раскрывает новое чувство воображения в системах ИИ, приближая их к человеческому пониманию мира.