Facebook представил нейронный суперсэмплинг для рендеринга в реальном времени

В этом году на конференции SIGGRAPH компания представила новые наработки по DeepFocus, системе рендеринга, которая использует искусственный интеллект для создания ультра-реалистичных изображений.

В закладки

Рендеринг в реальном времени в VR представляет собой уникальный набор задач, главными из которых являются необходимость поддержки фотореалистичных эффектов, достижения более высоких разрешений и более высокого fps. Чтобы решить эту проблему, исследователи из Facebook Reality Labs разработали DeepFocus, систему рендеринга, которая использует искусственный интеллект для создания ультра-реалистичных изображений.

На SIGGRAPH в докладе «Neural Supersampling for Real-time Rendering» был представлен подход машинного обучения, который преобразует входные изображения с низким разрешением в выходные с высоким для рендеринга в реальном времени. Апскейл использует нейронные сети.

Подход достигает значительного 16-кратного суперсэмплинга визуализированного контента с высокой пространственной и временной точностью, превосходя результаты предыдущей работы с большим отрывом.

В чём суть

Чтобы уменьшить стоимость рендеринга для дисплеев с высоким разрешением, метод работает с входным изображением, которое имеет в 16 раз меньше пикселей, чем желаемый результат. Например, если разрешение целевого дисплея составляет 3840×2160, то в сеть на вход поступает изображения 960×540, отрисованное игровыми движками, и увеличивает его до целевого разрешения дисплея в качестве постобработки в режиме реального времени.

Несмотря на то, что было проведено огромное количество исследований по изучению апскейла для фотографических изображений, ни одно из них не говорит непосредственно об уникальных потребностях в рендеринге контента, такого как изображения, создаваемые движками видеоигр. Это связано с принципиальными различиями в формировании изображений между отрендеренными и фотографическими. При рендеринге в реальном времени каждый сэмпл является точкой как в пространстве, так и во времени. Вот почему у такого контента заметен алиасинг, неровные линии и другие артефакты, которые можно увидеть в примерах с низким разрешением на входе. Это делает апскейлинг контента одновременно проблемой сглаживания и интерполяции, в отличие от проблем денойза и деблюринга, которые хорошо изучены в существующих исследованиях. Тот факт, что входные изображения имеют большой алиасинг, и что информация в пикселях, которые должны быть интерполированы, полностью отсутствует, создаёт значительные проблемы для высокоточного рендеринга контента.

С другой стороны, при рендеринге в реальном времени мы можем получить больше, чем просто цветные изображения, создаваемые камерой. Cовременные движки также предоставляют вспомогательную информацию, такую как значения глубины. Наблюдения показали, что для нейросуперсэмплинга дополнительная вспомогательная информация, предоставляемая моушен векторами, оказалась особенно эффективной. Моушен векторы определяют геометрические соответствия между пикселями в последовательных кадрах. Другими словами, каждый вектор указывает на субпиксельное местоположение, где точка поверхности, видимая в одном кадре, могла появиться в предыдущем кадре. Эти значения обычно оцениваются методами компьютерного зрения для фотографических изображений, но такие алгоритмы оценки подвержены ошибкам. В отличие от этого, механизм рендеринга может непосредственно генерировать плотные моушен векторы, тем самым обеспечивая надежную, полноценную информацию на вход нейросуперсэмплинга, применяемого к контенту.

Метод основан на вышеупомянутых наблюдениях и объединяет дополнительную вспомогательную информацию с новым пространственно-временным дизайном нейронной сети, который нацелен на максимизацию качества изображения и видео, обеспечивая при этом производительность в реальном времени.

Нейронная сеть принимает в качестве входных данных атрибуты рендеринга (цвет, карту глубины и моушен векторы на кадр) как текущего, так и нескольких предыдущих кадров, отрендеренных с низким разрешением. Выходной сигнал сети представляет собой цветное изображение высокого разрешения, соответствующее текущему кадру. Сеть обучается с контролируемым обучением. Во время обучения в качестве целевого изображения для оптимизации обучения предоставляется эталонное изображение, которое рендерится с высоким разрешением методами сглаживания в паре с каждым входным кадром низкого разрешения.

Пример результатов. Сверху вниз показаны отображаемые входные данные с низким разрешением, 16-кратный результат суперсэмплинга с помощью представленного метода и целевое изображение с высоким разрешением, отрендеренное офлайн.

Пример результатов. Сверху вниз показаны отображаемые входные данные с низким разрешением, 16-кратный результат суперсэмплинга с помощью представленного метода и целевое изображение с высоким разрешением, отрендеренное офлайн.
Пример результатов. Слева направо показан отрендеренный цветной ввод с низким разрешением, 16-кратный результат суперсэмплинга с помощью представленного метода и целевое изображение с высоким разрешением, отрендеренное офлайн.

Но есть же DLSS

Концептуально DeepFocus работает по тому же принципу, что и DLSS — это многокадровый суперсэмплинг. Но есть нюансы.

Во-первых, данная технология не привязана к конкретному железу, как технология DLSS от Nvidia.

Во-вторых, для помощи нейросети в генерации более качественного изображения система покадрово анализирует векторы движения пикселей и отслеживает их перемещение между кадрами. В теории это должно дать картинку наиболее приближенную к оригиналу.

Правда, во время тестирования исследователи сравнивали результаты с Nvidia DLSS 1.0. И результаты были сопоставимы. Вот только с DLSS 2.0 отрисовка кадра занимает в разы меньше времени по сравнению с DLSS 1.0.

Но технология, всё же, интересная. Как полагают сами сотрудники Facebook, их работа может найти применение в играх как для VR, так и в мобильных проектах или PC играх.

Что дальше?

Подход имеет большой потенциал для AR/VR, хотя проблема и понастоящему сложная. Поскольку AR/VR-дисплеи достигают более высоких разрешений, более высокой частоты кадров и улучшенного фотореализма, методы нейронного суперсэмплинга могут быть ключевыми для воспроизведения чётких деталей путём вывода их из данных сцены, чтобы не рендерить их напрямую.

Пишу про /gamedev (/unity и /gamedevnews) и индустрию. Поддержать всегда можно на Патреоне. Всем добра (ノ◕ヮ◕)ノ*:・゚✧ Где ещё можно меня найти:- Бложик.- Дзен.- Твиттер.- Хабр.
{ "author_name": "Andrey Apanasik", "author_type": "self", "tags": [], "comments": 56, "likes": 55, "favorites": 21, "is_advertisement": false, "subsite_label": "gamedevnews", "id": 182706, "is_wide": true, "is_ugc": true, "date": "Mon, 03 Aug 2020 09:33:54 +0300", "is_special": false }
G-Core Labs
Какие преимущества даёт публичное облако G-Core Labs — опыт работы с Wargaming
Оптимизация и ускорение разработки и тестирования игр, а также более эффективная работа с внешними партнёрами.
Объявление на DTF
0
56 комментариев
Популярные
По порядку
Написать комментарий...
0

Разве это не жрет ресурсы точно так же как и обычный рендер?
К слову, вот первый пример с пришельцами немного мыльноватый, но вот городок даже более гладкий чем таргет. Во многих местах нет лесенок, либо они сильнее сглажены.

Ответить
14

Я сильно не вчитывался в техническую часть. Но должно быть меньше. Нейронки много жрут на этапе обучения. Когда веса для слоёв настроены, то жрёт она копейки.
В этом плюс и минус метода. Если сеть хорошо натренировать под конкретную задачу, то выигрыш по ресурсам может быть огромен.

Ответить
26

Ладно, буду считать это магией

Ответить
1

Because it is

Ответить
0

Технологии уходят настолько далеко, что юзеры не успевают понять ее работу и она становится неотличимой от магии.

Ответить
5

Главное, чтобы это не стало актуально для погромистов. Ибо тогда уж точно нас захватит ИИ

Ответить

Былой химик

Темный
5

Погромисты тоже порой не понимают, что происходит )

Ответить

Шумный

Былой
0

порой

никогда

Ответить
0

нажрутся меланжа и сидят погромируют , синеглазики 

Ответить
0

в худшем случае погромисты тулов авто-ML запогромируют тулы авто-ML настолько хорошо, что погромисты ML перестанут быть нужны, пока сами не переквалифицируются в погромистов тулов авто-ML
круговорот погромистов в индустрии

Ответить
3

Юзеры никогда и не понимали.

Ответить
0

Wait it's all just a magic?

Ответить
0

Always has been.

Ответить
0

Always has been

Ответить
0

Обрати внимание на текстуры и надписи. В статике хорошо заметно, что любые тонкие линии теряют детализацию, в примере с городком это баннеры, лоза, цветы и текстура двери.

Ответить
1

Что дальше?

А дальше эмуляторы первой плойки начнут выдавать более качественную картинку, чем PS5. :-D

Ответить
6

Ну будет заебумба, на пс1 хотя бы игры есть

Ответить
2

А качество видосиков в самом Фейсбуке оставляет желать лучшего.

Ответить

Неизвестный жар

2

Итить они там денег вливают в VR/AR технологии. А что если когда-нибудь и рынок для разработчиков дружелюбнее сделают чтобы инди врывались из 100 каках пару бриллиантов выпадало. 

@Andrey Apanasik жду еще статейку по голографическим линзами, они прям будущее. 

Ответить
0

У тебя на примете есть какая-то конкретная статья? )

Ответить
0

я вот не понял, на кадре с инопланетянами был постер с надписями что-то про нью йорк
так вот если смотреть картинку низкого разрешения, там же полная мешанина и из этого текст просто невозможно получить, это ведь просто какой то шум
по крайней мере на статичной картинке это невозможно, мне кажется, так что не очень верится, 
скажите, в чем я не прав?

Ответить
1

1) даже на статике читается new york и paris, c трудом tokyo, berlin потерян
2) нейросети похер, она не вчитывается, просто идет по пикселям и трансформирует по правилам, выведенным при обучении модели. и в итоге получается читаемый текст, потому что выученные правила апскейлинга обобщенные и работают вне зависимости от "содержания" изображения.
текст в низком разрешении ничуть не большая мешанина, чем инопланетянин, просто ты, как человек, образы воспринимаешь лучше, особенно гуманоидов и животных, очень грубо говоря, "потому что эволюция".
ты не прав в том, что подходишь к вопросу с позиции человека, а не машины

Ответить
0

ну просто нейросеть вроде тоже по образам работает, то есть пытается угадать что есть что и потом на основе этого дорисовывает
поэтому мне и кажется, что если человек уже не сможет прочесть, то как из этого получится получить нормальный текст

Ответить
0

нейросеть = китайская комната

Ответить
0

ИИ тоже. Мы все китайская комната...

Ответить
1

мы нет
мы себе воображаем всякое и думаем, что существуем.
а нейронка - настоящая китайская комната, получает какие-то безликие чиселки на вход, преобразует по заученным правилам, и отдает на выход другой набор безликих чиселок. 
а мы смотрим на выходные безликие чиселки и опять воображаем себе всякое

Ответить
0

Мы скопление нейронов работающих по шаблонам

Ответить
2

разница в том, что мы - скопление нейросетей, которые никогда не выходят из цикла обучения
а как система, мы не имеем представления ни о количестве нейросетей в системе, ни об их назначении, ни о взаимосвязях, ни о весах, вообще ни о чем (не без исключений из правила, кое о чем имеем очень примерное представление)
мы одновременно внутри и снаружи китайской комнаты
множества китайских комнат
мы страна с мириадами китайских домов, которые беспрестанно самопроизвольно рушатся, перестраиваются и строятся заново
а наши искусственные "нейросети" это как бы и не нейросети вовсе - это модели, они вообще статичные 
это именно китайские комнаты, просто набор правил
цикл обучения у них закончен

Ответить
0

Т.е. тут задумка скорее всего такая, рендерится все в буфер цвета какой-нибудь с низким разрешением(представь это как обычное изображение). Потом с помощью этой сети апскейлится до нужного, чтоб рендерить быстрее (не рендерить сразу все в высоком разрешении). А в высоком больше пикселей. Вкратце как-то так. Не вдаваясь в детали как-то так. Надо прочитать оригинальную статью, чтоб подробности глубже понять. Этим скорее всего и займусь

Ответить
0

да просто это магия какая-то выходит, как в голливудских фильмах со шпионам, когда из видео в 144р получают фото номера какой нить дальней машины
они пишут, что берут другую информацию из движка игры типа дальности
но ведь надпись на стене это не объемный объект - это текстура (скорее всего) и тогда вообще не ясно откуда нейроосеть возьмет инфу по недостающим пикселям в этой мешанине

Ответить
1

Нет магии, нейронка получает не пережатый джипег, а реалтайм рендер, который уже и апскейлит. У нее изначально больше данных на вход чем у статики. Есть смежные кадры, глубина картинки и тд. Поэтому она не придумывает чо там может быть в соседних пикселях.

Ответить
0

так конечно по понятней,
но тогда мало что отличает его он обычного рендера
надо разобраться подробнее

Ответить
0

Насколько я понял его отличает ресурсоемкость. А судя по таргету еще и качество. То бишь обычный рендер он в общем-то жрет много, а тут рендер дешевый выходит, а апскейл нейронкой не только убирает постобработку, но и в целом получше картинку выдает.

Ответить
0

Нет, здесь никто не угадывает в привычном смысле. Нейросеть именно учили апскейлить. Т.е. здесь насколько я понимаю берётся изображение с низким разрешением и апскейлится до большего путём сэмплинга пикселей информацией, допустим чтобы сгладить изображение, сделав этот пиксель полупрозрачным. Тут даже в статье описывается, что изображение итоговое имеет больше пикселей и алгоритм сэмплирует их.

Ответить
0

нейросеть ничего не знает про образы, работает исключительно с числами
образы - это исключительна наша интерпретация чисел

Ответить
0

Всё очень просто: нейронку учили на конкретной сцене, а не на всём подряд. Таким образом, она этот текст "уже видела" и именно поэтому она знает как он должен выглядеть.

Представьте себе, что вам сначала показали полный рассказ, а зачем убрали из него часть слов. Ваша задача - вставить пропущенные. Если у вас достаточно хорошая память, то вы легко справитесь. 

Ответить
–1

ну это полностью неверно, обучение не так работает
вся суть нейросетей - получить обобщенные правила предсказания, отвечающего заданным метрикам

Ответить
1

Там данные с нескольких кадров используются при апскейле. Текущий + репроекция предыдущих.

Ответить
1

ты смотришь на картинку, а нейросеть еще смотрить на векторы движения пикселов. они принципиально разные у переднего плана и стены, по разнице и вылазит "чоткий край"

просто этот "чоткий край" лежит не там, где полигоны кончаются, а где-то между двумя пикселями. и так как всем в общем-то наплевать где он там на самом деле - выглядит нормально

Ответить

Былой химик

Владомир
0

Мне кажется, или всё-таки результат получен в движении? То есть имеется дополнительная информация с других кадров.

Ответить
1

Что эта технология, что DLSS, учитывают прошлые кадры.

Ответить
0

Шум бы был, если пиксели были не на своих местах или значение какого-то из них потерялось. Тут же все на своём месте, и ещё даже более менее видно, если присмотреться.

Ответить
0

А что алгоритм нарендерит, если ему на вход подать белого шуму?

Ответить
4

Комментарии на dtf.

Ответить
2

подсознание нейросети нарендерит ))

Ответить
0

белый шум

он принимает не только цвет, но еще и глубину и вектора движения.
точно так же как и DLSS
Без этой доп информации он не работает

Ответить
0

в 16 раз больше пикселей белого шума

Ответить
0

А они не хотят, случайно, это в квесте втором использовать? Интересно, будет ли хватать мощностей шлема для такой обработки. Для первого квеста, при игре через линк, им приходилось сжимать поток и восстанавливать на шлеме, из-за чего фреймрейт был небольшим, а картинка мыльной. А если они будут изначально гнать в хд формате и обрабатывать нейросетью, то это ограничение можно будет обойти.

Ответить

Неизвестный жар

Rover
0

Для первого квеста, при игре через линк

Всегда удивлялся зачем покупать оверпрайс link провод и играть через него когда можно через Virtual Display наслаждаться безпроводным вр

Ответить
2

 оверпрайс link провод

Virtual Desktop стоит $20 + 5G роутер, трехметровый usb3 кабель с Али - $5.

Ответить

Неизвестный жар

А
–2

Это уже не линк,  про который мы говорим. Зато такой вариант уже логичнее и выгоднее VD. Хотя говорят не все кабели подходят, поэтому небольшой головняк будет. 

Ответить
1

Это раньше не все кабели подходили, сейчас подходит почти любой USB 2.0, даже комплектный USB 2.0-кабель который изначально был только для зарядки сейчас работает с линком.

Ответить
0

Я в эти дела не лезу. Если покупают, значит есть для чего. Сам с рифта играю.

Ответить

Неизвестный жар

Rover
0

Если покупают, значит есть для чего

Болты бмв за 2.5к на колеса тоже покупают, когда ровно с той же резьбой и более удобными шляпками с москвича болты по 50 рублей стоят. 
Дело как грится хозяйское

Ответить
0

В статике хорошо, но в динамике шум на краях портит всю малину.

Ответить
{ "jsPath": "/static/build/dtf.ru/specials/DeliveryCheats/js/all.min.js?v=05.02.2020", "cssPath": "/static/build/dtf.ru/specials/DeliveryCheats/styles/all.min.css?v=05.02.2020", "fontsPath": "https://fonts.googleapis.com/css?family=Roboto+Mono:400,700,700i&subset=cyrillic" }
null