Изображение в красной рамке - получается - если взять два исходных изображения и смешать их в фотошопе поставив на слоях по 50% .
Но изображение в зеленой рамке было сделано путем взятия «скрытых исходников» из нейросети и последующий реконструкцией через шумоподавление диффузии показаной на примере спирали выше. По сравнению с «брутфорсным» смешиванием - итог выглядит как убедительное человеческое лицо, а не наложение двух лиц.
По этому принципу работают такие нейросети как «ThisPersonNot Exist» :https://thispersondoesnotexist.com/ и тысячи их клонов(жмите F5/ обновить страницу что бы получать разный результат)
***
STABLE DIFFUSION и его аналоги - реализованы все указанные технологии.
Как генерация из Промта и случайного шума
«в процессе обучения нейросети -внутри формируется сверх сжатая копия чужих картинок которая оседает на узлах нейросети. И значит дав нейросети весьма долгий шаг работы над картинкой - она сможет восстановить исходное сокрытое изображение.»
— это неправильное понимание принципа работы. Вы как себе представляете сжатие почти 6 млрд (шести миллиардов!) картинок в файл 2.1гб или пусть 4.27гб? Все немного интереснее:
1. Для обучения конкретно SD использовали открытую билиотеку изображений (LAION), которую позволяют использовать для исследовательских целей. Этим занималась некоммерческая организация в соответствии с лицензией (иначе бы всего остального мы не увидели).
2. В файле не хранятся исходники изображений. Процесс кодирования-декодирования это не винрар. Никаких копий исходных картинок там нет, они в дальнейшем процессе не используются.
3. Восстановления исходных копий при генерации не происходит. Это воспроизведение чего-то похожего на оригинал, но это всегда случайное изображение и это всегда новое изображение. Отличия даже с тем же случайным исходным числом одной и той же модели будут при генерации на разных устройствах с разными видеокартами.
Теперь самое интересное, что беспокоит большинство людей — копирайт. Исходные модели SD распространяются бесплатно, и обучены на бесплатной базе. Но для дообучения этих моделей (создания своих версий моделей) нужно использовать новые изображения — если вы обучаете на своих картинках, у вас должны быть права на их использование. При этом скрипт для обучения — он тоже в опенсорсе — не имеет прямого отношения к SD, у него другие разработчики.
Я потом расписал как это происходит и приложил даже примеры как можно вытащить исходник.
Внимательнее)
Для особо не внимательных продублирую еще раз:
https://arxiv.org/pdf/2212.03860.pdf
Само собой все 4.5 миллиарда картинок не храняться - но сотня тысяч самых распространенных котоыре повторяются в дата базе в разном качестве - очень даже.
Сжатие 6 миллиардов картинок легко объяснить векторизацией. Разделение изображения на числовые признаки, в том числе неоднократно повторяющиеся в разных изображениях. Это как сжатие с потерями, только потерь 98%. Восстановление изображения происходит при рекомбинации признаков - чем то похоже на случайную генерацию уровней в играх. К тому же изображения почти всегда обучаются в лоурезе. В среднем модель должна требовать около 60 - 70 терабайт несжатых данных, впрочем, это не так уж и много.
Чисто теоретически при определенной комбинации признаков можно почти точно восстановить одно из исходных изображений, что конечно вызывает некоторые правовые вопросы.
Комментарий недоступен
Комментарий недоступен
"Ну, статью воспринимать не особо стоит после слов, что модель в 1-4 гига каким-либо образом хранит 240 терабайт картинок датасета LAION-5B"Я этого не говорил)
Это ты сам придумал. Я как раз во всю говорю что данные архивируются до максимально сжатого вида.
"Другое дело, что в датасете может быть слишком много похожих работ, что вызовет оверфит по конкретным примерам, и очень похожие работы будут выдаваться по соответствующим запросам."Вот именно - она так и работает - в нее грузят картинки и учат их восстанавливать из шума.
Ясен фиг что всех 4.5 млрд в нейронки не останется
Я это показал на примере МОНО ЛИЗЫ. Если Нейронка может выдать на уровне УЗНАВАЕМОГО ОБРАЗА... то это ОЗНАЧАЕТ что она(моно лиза), БУКВАЛЬНО - ЛЕЖИТ ВНУТРИ нейронки, естественно с потерей данных. О чем указано в статье.
Но помимо моно лизы - есть тысячи узнаваемых образов которые штампуются нейронкой. У того же Грега Рутовски в весрии 1.5 Стейбл Дифьюжн - можно заставить выдать с десяток его работ. На уровне узнаваемого плагиата.
Комментарий недоступен