Исследователи обнаружили фундаментальную ошибку в алгоритмах Stable Diffusion⁠⁠

Недавно была опубликована статья, которая исследует шумовой график и шаги выборки, используемые в моделях Stable Diffusion. Авторы обнаружили, что существующие дизайны приводят к тому, что изображения всегда имеют одинаковую среднюю яркость. Однако после исправления этой проблемы, модель может генерировать более яркие и темные изображения, что делает их более кинематографичными.

Авторы статьи обнаружили, что распространенные шумовые графики не обеспечивают нулевой отношение сигнал/шум (SNR) на последнем шаге, а некоторые реализации выборки диффузии не начинаются с последнего шага. Эти дизайны не отражают тот факт, что модели на вход подается чистый гауссовский шум при выводе, что создает расхождение между обучением и выводом. Авторы показывают, что такой дизайн вызывает реальные проблемы в существующих реализациях.

Они предлагают несколько простых исправлений, которые позволяют модели генерировать выборки, более точно соответствующие исходному распределению данных. Эти простые изменения обеспечивают согласованность процесса диффузии между обучением и выводом и позволяют модели генерировать выборки с более яркими и темными изображениями. В целом, это открывает новые возможности для улучшения моделей и генерации более качественных изображений. Так что ждем новые семплеры или модели, которую будут поддерживать эти изменения.

Подпишитесь на мой телеграм канал, чтобы быть в курсе всех нейро-новостей.

#StableDiffusion #машинноелернинг #искусственныйинтеллект #генеративныемодели #диффузия #компьютерноезрение #технологии #AI #machinelearning #generativemodels #diffusion #computervision #technology