Нейросеть нового поколения не просто генерирует изображения

Данные — это новая почва, и на этой новой плодородной почве исследователи Массачусетского технологического института сажают не только пиксели. С использованием синтетических изображений в обучении моделей машинного обучения ученые превзошли результаты, полученные с использованием традиционных методов обучения "реальным изображениям".

Основой этого подхода является система StableRep, которая не только использует синтетические изображения, но и генерирует их с помощью популярных моделей преобразования текста в изображение, таких как Stable Diffusion. Этот подход схож с созданием миров с использованием слов.

Секретный ингредиент StableRep - это стратегия, известная как "мультипозитивное контрастивное обучение".

Лицзе Фан, аспирант Массачусетского технологического института, объясняет:

Мы учим модель распознавать концепции высокого уровня через контекст и дисперсию, не ограничиваясь только предоставлением данных. Когда модель рассматривает несколько изображений, созданных из одного и того же текста и рассматриваемых как изображения одного и того же объекта, она углубляется в концепции, лежащие в основе изображений, вместо просто пикселей.

Этот метод рассматривает несколько изображений, порожденных одинаковыми текстовыми подсказками, как положительные пары, обеспечивая дополнительную информацию во время обучения. Это не только добавляет разнообразие, но и учитывает, какие изображения схожи, а какие различны. StableRep превзошел модели высшего уровня, обученные на реальных изображениях, в широких наборах данных.

Система также предоставляет путь к новой эре методов обучения искусственного интеллекта, позволяя создавать высококачественные и разнообразные синтетические изображения по команде, что может значительно сэкономить затраты и ресурсы в машинном обучении.

Несмотря на успех, у исследователей есть вызовы, включая медленное создание изображений и семантические несоответствия. Тем не менее, StableRep открывает новые горизонты для эффективного обучения машинного обучения с использованием синтетических данных.