Мы улучшили Онидзуку

Ага, опять мы улучшили хотя ни кто не просил.
В первом посте, мы продемонстрировали технологию Real-ESRGAN, в качестве примера для улучшения выбрали Evangelion. Но поскольку трогать еву нельзя, в этой статье мы проведем сравнительный анализ на примере GTO (Great Teacher Onizuka) 1997-2002.

В этой статейке мы сравним результаты Real-ESRGAN с Waifu2x (есть еще Topaz Video Enhancer AI, но раздача заглохла на 20%). И введем метод, который будет оценивать результат улучшения.

Что такое оценка качества изображения (Image Quality Assessment (IQA))?

Это такие алгоритмы которые принимаю на вход изображение, а на выходе выдают оценку качества.

Full-Reference IQA - У вас есть «чистое» эталонное (неискаженное) изображение для измерения качества вашего искаженного изображения. Эта мера может использоваться при оценке качества алгоритма сжатия изображения, когда у нас есть доступ как к исходному изображению, так и к его сжатой версии.

Reduced-Reference IQA - у вас не эталонное изображение, а изображение, содержащее некоторую выборочную информацию о нем (например, изображение с водяными знаками) для сравнения и измерения качества искаженного изображения.

Objective Blind or No-Reference IQA - у вас нет эталона, а только одно изображение, качество которого вы хотите измерить. Таким образом, это называется «без эталонного» или «объективным слепым».

Поскольку мы хотим оценить шумы на изображении не глядя на оригинал, мы будем использовать метод Objective Blind. Одним из методов является (Blind/Referenceless Image Spatial Quality Evaluator) или BRISQUE. Прежде чем перейти к сравнению, разберемся с двумя основными терминами.

Искаженное изображение - это версия исходного изображения, искаженная размытием, шумом, водяными знаками, преобразованиями цвета, геометрическими преобразованиями и т. д.

Искажения, используемые в датасете TID 2008
Искажения, используемые в датасете TID 2008

Естественное изображение: изображение, непосредственно снятое камерой без постобработки, в нашем контексте является естественным изображением.

Image Quality Assessment (IQA) Dataset

Качество - дело субъективное. Чтобы научить алгоритм распознавать хорошее и плохое качество, нам нужно показать примеры алгоритмов для множества изображений и их показатель качества.

Кто назначает оценку качества этим обучающим изображениям? Конечно, человек. Но нельзя полагаться на мнение одного человека. Поэтому нам нужны мнения множества людей и присваиваем изображению средний балл от 0 (лучший) до 100 (худший). В литературе этот показатель называется средним показателем качества.

Нужно ли нам самим собирать эти данные? К счастью, этот набор данных под названием TID2008 стал доступен для исследовательских целей.

Шкала оценки качества изображения TID2008 (от 0 до 100): чем меньше оценка, тем выше субъективное качество.
Шкала оценки качества изображения TID2008 (от 0 до 100): чем меньше оценка, тем выше субъективное качество.

Blind/Referenceless Image Spatial Quality Evaluator (BRISQUE)

Мы улучшили Онидзуку

У данного метода три шага:
1. Извлечь статистику естественной сцены (NSS)
2. Вычислить вектор признаков
3. Прогнозировать оценку качества изображения (SVM)

Далее будет сравнение при помощи данного метода, кому интересно разобраться с этим методов, может прочитать тут тут и тут

Оригинал текста выше тут

Сравнения

Отлично, мы ввели метод, который даст нам оценку, хорошо стало или хуже. Теперь надо разобраться с другим, Waifu2x и Real-ESRGAN увеличивают изображение в 4 раза и на выходе мы получаем уже 3840x2880, а оригинальное изображение всего лишь 960x720. И если оценивать не приводя к одному размеру, то показатель метода BRISQUE будет невалидный для двух изображений, так как информации внутри изображения большего размера будет в 2 раза больше. Что же делать?
Вариант который мне показался отличным (нет), привести все увеличенные изображения в размер оригинала при помощи метода интерполяции Lanczos или же Lanczos resampling

Такс, привели тестовые изображения к одному формату. Начнем считать BRISQUE и сравнивать

Мы улучшили Онидзуку
Мы улучшили Онидзуку
Мы улучшили Онидзуку
Мы улучшили Онидзуку

Теперь проведем тестовый расчет, возьмем 100 кадров и посчитаем среднее

Мы улучшили Онидзуку

На пару сотен долей Real-ESRGAN лучше, чем оригинал. Но нет сильно разрыва из-за вот таких ошибок при предсказывании SVM.

Мы улучшили Онидзуку

Увеличенное сравнение

Мы улучшили Онидзуку
Мы улучшили Онидзуку
Мы улучшили Онидзуку
Мы улучшили Онидзуку

Метод Real-ESRGAN отлично подходит для тех кто не любит мыло, а хочет развалиться на диване и смотреть старое аниме на своем 4К телевизоре.

Мы улучшили Онидзуку

Автор данной статьи не призывает смотреть обработанные версии. Автор просто делиться результатами работы.

Играйтесь, улучшайте аниме и кидайте свои результаты в комментарии и подписывайтесь на наш Telegram-канал, там мы чаще делимся своими экспериментами и новостями.

UPDATE 8.01.2022

В комментах написали мол, нейронная сеть рисует дефекты. В версии на Кинопоиск те же самые дефекты.

Мы улучшили Онидзуку

Так же в дополнение сравнение версии из Кинопоиска и Real-ESRGAN

Кадр из кинопоиск<br />
Кадр из кинопоиск
Кадр обработанный Real-ESRGAN<br />
Кадр обработанный Real-ESRGAN
1212 показов
1.5K1.5K открытий
44 репоста
14 комментариев

Значит против женоподобных любителей Евы вы не пойдете, а против гигачадов и их примера для подражания - всегда пожалуйста, а вы умеете выбирать противников

Ответить

Проблема не в фанатах евы, а в том, что вы не понимаете ни того, как рисуется аниме (как то, которое на плёнку отснятое, так и то, которое в цифре рисуется), ни того, какие проблемы имеет исходник и как их лечить. Да и вообще — растягивать 480 на 4К — это ор. Студии сейчас делают ап из 810p в 1080p и то с ошибками, а вы такие налетели "ща всё будет" и погнали. Чот ору. Это из разряда "нет шума и линии ЧОТКИЕ". А то что нейронка удалила много деталей, например линии или дорисовала несуществующие — плевать? А в динамике мазня — та никто не увидит. Математическая эталонность != визуальная.

А своим оправданием про "фанатов Евы" вы сразу показали свою некомпетентность в вопросе. Это как взять Лунную сонату Бетховена и сказать: "не, фигня. Бетховен молодец, но сейчас новые технологии, 2022 на дворе. Давайте замиксуем, добавим мощный бит и будет лучше, чем оригинал. А, вы слушаете запись на пластинке? — Отбитые фанаты Бетховена, которые пускают слюни на винил. Тогда мы возьмём у Вивальди его Времена года (Лето) и замиксуем его в рок-обработке".

Ну и да... А что вы скажете насчёт авторских прав? Особенно вот с этого орнул:
но раздача заглохла на 20%То есть вы признаёте, что как государственный институт (или его представитель), зашли на запрещённый ресурс через впн и скачали пиратский контент, грубо нарушив парочку законов. Ещё и свою новоявленную пиратку оформили на Яндекс.Диске и в общий доступ выложили. Дабл фейспалм. 😅

Ответить

Рилсраньган в большинстве ситуаций выглядит очень плохо. Например, когда мелкие объекты он их просто убивает. Только для крупных планов персонажки норм. Так что стоит смотреть в сторону гибридного подхода, где часть кадров будет одним методом улучшаться, а часть другим.

Ответить

Я бы даже сказал, часть кадра одним, часть - другим. Что-то вообще имеет смысл оригиналом оставить или вручную обрисовать.

Ответить

Восхитительно

Ответить

Такие призрачные кадры тоже в оригинале были? Сомневаюсь. Хотя если бы и их не было, то всё равно выглядит ужасно.
По мне, вы наоборот только больше мыла добавили.

Ответить

Дядь, оригинал открой, там мыла больше чем на PS4. Такое наложение происходит из-за процесса съемки кадров, данные "дефекты" есть и в оригинале. Сеть ничего нeдopиcoвывает, а лишь убирает шумы и делает апскейл. И из-за своей GAN архитектуры у нее выходит лучше чем у Waifu2x, где просто сети прямого распространения с свёрточными слоями, которые не убирают шум а тупо увеличивают изображения учитывая шум.

Ответить