А теперь представим требуемые мощности. Ладно, допустим у нас теперь больше 32 тысяч токенов под контекст есть, средняя длина сценария к фильму - 25-30 тысяч. Также фпс в фильмах 24 кадра, соответственно, 1.5 часов = 90 мин = 5400 секунд и на 5400 секунд 129600 кадров. Если у нас прокачались GAN модели, то может быть это и займёт плюс минус 129600 секунд. Но если это все работает на основе диффузионных моделей, то это уже как минимум 10 секунд на каждый кадр. Ну че уж там, ждём 360 часов пока кинчик будет готов и платим сотни долларов
А теперь представим требуемые мощности. Ладно, допустим у нас теперь больше 32 тысяч токенов под контекст есть, средняя длина сценария к фильму - 25-30 тысяч. Также фпс в фильмах 24 кадра, соответственно, 1.5 часов = 90 мин = 5400 секунд и на 5400 секунд 129600 кадров. Если у нас прокачались GAN модели, то может быть это и займёт плюс минус 129600 секунд. Но если это все работает на основе диффузионных моделей, то это уже как минимум 10 секунд на каждый кадр. Ну че уж там, ждём 360 часов пока кинчик будет готов и платим сотни долларов
Плюс нужна моделей говорилка и ещё одна нейросеть которая пилит этот сценарий по частям для говорилки и генератора видео.
Лишь бы прогресс в железе не затормозился вусмерть, и тогда всё это порешается.