Мы улучшили Онидзуку

Ага, опять мы улучшили хотя ни кто не просил.
В первом посте, мы продемонстрировали технологию Real-ESRGAN, в качестве примера для улучшения выбрали Evangelion. Но поскольку трогать еву нельзя, в этой статье мы проведем сравнительный анализ на примере GTO (Great Teacher Onizuka) 1997-2002.

Посмотреть результат можно тут

В этой статейке мы сравним результаты Real-ESRGAN с Waifu2x (есть еще Topaz Video Enhancer AI, но раздача заглохла на 20%). И введем метод, который будет оценивать результат улучшения.

Это такие алгоритмы которые принимаю на вход изображение, а на выходе выдают оценку качества.

Full-Reference IQA - У вас есть «чистое» эталонное (неискаженное) изображение для измерения качества вашего искаженного изображения. Эта мера может использоваться при оценке качества алгоритма сжатия изображения, когда у нас есть доступ как к исходному изображению, так и к его сжатой версии.

Reduced-Reference IQA - у вас не эталонное изображение, а изображение, содержащее некоторую выборочную информацию о нем (например, изображение с водяными знаками) для сравнения и измерения качества искаженного изображения.

Objective Blind or No-Reference IQA - у вас нет эталона, а только одно изображение, качество которого вы хотите измерить. Таким образом, это называется «без эталонного» или «объективным слепым».

Поскольку мы хотим оценить шумы на изображении не глядя на оригинал, мы будем использовать метод Objective Blind. Одним из методов является (Blind/Referenceless Image Spatial Quality Evaluator) или BRISQUE. Прежде чем перейти к сравнению, разберемся с двумя основными терминами.

Искаженное изображение - это версия исходного изображения, искаженная размытием, шумом, водяными знаками, преобразованиями цвета, геометрическими преобразованиями и т. д.

Искажения, используемые в датасете TID 2008

Естественное изображение: изображение, непосредственно снятое камерой без постобработки, в нашем контексте является естественным изображением.

Качество - дело субъективное. Чтобы научить алгоритм распознавать хорошее и плохое качество, нам нужно показать примеры алгоритмов для множества изображений и их показатель качества.

Кто назначает оценку качества этим обучающим изображениям? Конечно, человек. Но нельзя полагаться на мнение одного человека. Поэтому нам нужны мнения множества людей и присваиваем изображению средний балл от 0 (лучший) до 100 (худший). В литературе этот показатель называется средним показателем качества.

Нужно ли нам самим собирать эти данные? К счастью, этот набор данных под названием TID2008 стал доступен для исследовательских целей.

Шкала оценки качества изображения TID2008 (от 0 до 100): чем меньше оценка, тем выше субъективное качество.

У данного метода три шага:
1. Извлечь статистику естественной сцены (NSS)
2. Вычислить вектор признаков
3. Прогнозировать оценку качества изображения (SVM)

Далее будет сравнение при помощи данного метода, кому интересно разобраться с этим методов, может прочитать тут тут и тут

Оригинал текста выше тут

Отлично, мы ввели метод, который даст нам оценку, хорошо стало или хуже. Теперь надо разобраться с другим, Waifu2x и Real-ESRGAN увеличивают изображение в 4 раза и на выходе мы получаем уже 3840x2880, а оригинальное изображение всего лишь 960x720. И если оценивать не приводя к одному размеру, то показатель метода BRISQUE будет невалидный для двух изображений, так как информации внутри изображения большего размера будет в 2 раза больше. Что же делать?
Вариант который мне показался отличным (нет), привести все увеличенные изображения в размер оригинала при помощи метода интерполяции Lanczos или же Lanczos resampling

Такс, привели тестовые изображения к одному формату. Начнем считать BRISQUE и сравнивать

Теперь проведем тестовый расчет, возьмем 100 кадров и посчитаем среднее

На пару сотен долей Real-ESRGAN лучше, чем оригинал. Но нет сильно разрыва из-за вот таких ошибок при предсказывании SVM.

Увеличенное сравнение

Метод Real-ESRGAN отлично подходит для тех кто не любит мыло, а хочет развалиться на диване и смотреть старое аниме на своем 4К телевизоре.

Автор данной статьи не призывает смотреть обработанные версии. Автор просто делиться результатами работы.

Играйтесь, улучшайте аниме и кидайте свои результаты в комментарии и подписывайтесь на наш Telegram-канал, там мы чаще делимся своими экспериментами и новостями.

UPDATE 8.01.2022

В комментах написали мол, нейронная сеть рисует дефекты. В версии на Кинопоиск те же самые дефекты.

Так же в дополнение сравнение версии из Кинопоиска и Real-ESRGAN

Мы улучшили Онидзуку

Что такое оценка качества изображения (Image Quality Assessment (IQA))?

Image Quality Assessment (IQA) Dataset

Blind/Referenceless Image Spatial Quality Evaluator (BRISQUE)

Сравнения