Принцип тот же самый, но только тут важно понимать, что видео - это набор взаимосвязанных кадров, то есть это не обычная диффузионная модель, а уже такая, что может во временные зависимости и желательно еще в 3D, про 3D видел статьи на Хабре, а про время просто читал. Короче говоря, идея та же самая, мы из шума делаем осмысленные картинки ну или в данном случае кадры
Тут не со всем про угрозы и всякие требования, тут именно ошибки во время обучения, если коротко, когда модель делает предсказание, то мы сравниваем это предсказание с правильным ответом, если модель ошиблась немного - не страшно, но все равно плохо, если модель ошиблась сильно - это очень плохо. Модель как раз таки учится уменьшать эти ошибки, потому что ее как бы штрафуют за них, опять же, немного математики
Скорее всего распишу про это все завтра в новом посте, про этапы обучения, про то, как наказывают модель во время обучения и как модель учится уменьшать свои ошибки.
Про то, что во время общения с нейронкой нужно кричать и угрожать - возможно, верно, но тут суть немного не в этом, тут именно что мы еще на этапе обучения модели закладываем правила игры, большие ошибки - большой штраф, маленькие - небольшой и модель учится исправлять свои ошибки
Нейросеть не учат распознавать объекты, ее учат решать задачу, задачу примерно такую: в картинке есть шум, надо предсказать (тут уже в дело вступает теория вероятности и статистика), какой шум убрать. Как модель вообще понимает форму? Чтобы убрать шум правильно, ей выгодней выучить структуру мира, как пример, если модель не знает, что у кота 2 глаза, она будет постоянно делать ошибки при восстановлении или генерации картинки. Обучение будет наказывать модель за такие просчеты (другая не менее важная тема в машинном обучении). С течением времени модель найдет такой паттерн, который ведет к меньшей ошибке, она не видит глаз, мало того, она даже не знает про глаз, как понятие.
Теперь немного про "видит", модель ничего не видит, картинка - набор чисел, а видеть - это находить зависимости между числами. Например, какие-то числа образуют круг, рядом с ними темные пятна, все это повторяется в одних и тех же местах. Для человека - это глаз, для модели - выгодная статистическая структура.
Почему глаз - это не нос? Глаза идут парами, симметричны, находятся выше центра, а нос - один, ниже, другой формы и текстуры. Если перепутать, то ошибка возрастает и все по новой.
Теперь про вымышленные объекты, причина опять же в статистике. Реальный кот имеет жесткие анатомические ограничения, а люди мгновенно заметят ошибку, даже малейшую. Вымышленные объекты не имеют жестких рамок, допускается вариативность, если что-то не так, то скорее всего мозг простит этот косяк.
Антропоморфные звери - это смесь человека и животного, оба хорошо представлены, модель может легко скомбинировать паттерн, тут уже в роль вступает линейная алгебра.
Короче говоря: нейросеть не знает, что такое глаз, не понимает, что такое кот, НО! она выучила статистику мира, ее ошибки совпадают с нашими (для нас не норма, если у кота один глаз) и нам начинает казаться, что модель понимает. Тут надо бы подробнее рассказать про ошибки во время обучения и как модели наказываются за эти самые ошибки, но это достаточно большая тема, про нее как-нибудь в другой раз
Это может казаться магией, но за ней чаще всего стоит скучная, сложная и не очень интересная математика
Если коротко, то за счет статистики и математики в целом, так как диффузионные модели - чистой воды математика. Но если проще, то правый глаз больше похож на глаз, потому что он находится в месте, где чаще всего находятся глаза, да и правый глаз похож на глаз, а не на нос. Если бы у нас в датасете была только одна картинка с котом, то вероятней всего модель бы не знала, что такое глаз, что такое нос, да и форму бы не запомнила. Модель просто запоминает статистику
Очевидно, Starfield, другие даже и близко не на таком уровне
Проснулся в ванной, каким образом попал туда не знаю, по всей видимости нормально отметил
У plague tale саундтрек определенно лучше, чем у гова
Пост не про весь этап обучения, а именно про штрафы и регуляризацию, писать про полное обучение на полном техническом языке глупо, и так пост получился не самым простым, что было бы, если я добавил в него математику и более точные формулировки. Хотя мне не совсем понятно, что именно перепутано и натянуто, я могу расписать это все на техническом языке, но для чего? Так хотя бы у людей будет хоть какое-то понимание принципов наказания модели. ДТФ - не Хабр, тут пытаюсь расписывать максимально просто.
Lasso и Ridge активно используют в обучении моделей, но в LLM понятное дело используют более продвинутые версии, тот же Weigh Decay это своего рода аналог Ridge, Dropout более лучшая версия для нейронных сетей.
LLM - это другой уровень, не линейная регрессия, начать сразу с LLM и пытаться объяснить, что такое нейроны в ML слишком долго. Проще объяснять с низов и постепенно двигаться к LLMкам