Технология Google способна повышать разрешение изображений до 16 раз без потери качества

В её основе лежат диффузионные модели.

В блоге Google AI, посвящённом исследованиям и разработкам в области искусственного интеллекта, обнаружили демонстрацию технологии масштабирования изображений на базе диффузионных моделей.

Специалисты внутренней команды Brain Team представили два связанных алгоритма, которые генерируют фотографии высокой чёткости без потери качества.

Первый из них называется SR3 (апскейлинг посредством повторного уточнения). На вход подаётся картинка с низким разрешением, и нейросеть пытается увеличить её, добавляя шум.

Модель обучается методам искажения изображения, а затем поворачивает весь процесс вспять, постепенно удаляя шум для достижения заявленного результата.

Инженеры обнаружили, что SR3 превосходит существующие генеративные алгоритмы, такие как PULSE и FSRGAN, особенно при работе с портретами и фотографиями природы.

Коэффициенты запутанности<br /> Google
Коэффициенты запутанности
Google

В компании не остановились на достигнутом и разработали ещё одну диффузионную модель под названием CDM. На этот раз нейросеть обучили миллионам изображений высокого разрешения из базы ImageNet.

Алгоритм использует каскадный подход и увеличивает фотографии в два этапа: с разрешения 32×32 -> 64×64 -> 256×256 (в 8 раз), либо с 64×64 -> 256×256 -> 1024×1024 (в 16 раз).

Google опубликовала примеры работы алгоритмов. На некоторых изображениях заметны графические артефакты, но в целом результат действительно удивляет. О коммерческом распространении технологии данных пока нет.

Апскейлинг изображений с 32х32 до 256х256
Google
Портреты, сгенерированные из фотографий низкого разрешения<br /> Google
Портреты, сгенерированные из фотографий низкого разрешения
Google
673673
268 комментариев

Так на первой картинке Обама

15
Ответить

Во-во, нейронка не может взять информацию и выдумывает лица.

36
Ответить

Кажется я знаю, на чем эту нейронку обучали

22
Ответить

А куда белый воротник делся?

16
Ответить

This isn't output from the same algorithm

Поясняет дальше автор этого твита

6
Ответить

Выглядит как фотошляпа
1) Куда рубашка делась?
2) Где тень с правой стороны подбородка?

6
Ответить