Обзор нейросетей для генерации видео!
В последнее время многие ведущие компании активно демонстрируют впечатляющие возможности(пример 1 и 2) своих фирменных нейросетей по генерации видео на основе текстовых описаний. Однако что происходит, когда обычные пользователи пытаются воспользоваться бесплатными версиями искусственного интеллекта для этой задачи?
Ограничения бесплатных ИИ-моделей
Первое серьезное ограничение, с которым сталкиваются пользователи общедоступных ИИ-сервисов - это крайне короткая продолжительность генерируемых видеороликов, обычно не более 5-7 секунд. Причиной тому служат вычислительные ограничения и необходимость обрабатывать большие объемы данных для создания видео.
Кроме того, оказывается, что даже детальные текстовые описания или "промпты" зачастую не помогают добиться желаемого результата. Нейросети пока не могут адекватно воспринимать и интерпретировать сложные визуальные сцены, описанные в текстовом виде.Конечно, ключевые, то есть начальные слова он вам визуализирует, но дальше ИИ будет сложно.
Однако простой и подробный запрос он создаст с легкостью:
"Сгенерируй короткий фантастический видеоролик о приключениях дружелюбного инопланетянина, исследующего впервые планету Земля"
Ограничения контента
Помимо технических ограничений, существуют также ограничения на генерацию определенных видов контента, прежде всего связанные с этическими соображениями. Бесплатные ИИ-модели, как правило, отказываются создавать видео с жестокостью, насилием или другим неприемлемым содержанием.
Что значит для нейросети жестокость?
Пользователи сообщают, что нейросети могут отказаться, например, сгенерировать сцену, где гигантский паук ест рандомную планету, или битву, в которой овощи начинают нарезать друг друга. Это связано с настройками и ограничениями, изначально заложенными в модели разработчиками.
Создал картинку и попросил нейросеть ее сгенерировать. Вот результат:
Нейросеть Gen-2 by Runway генерирует примерно на таком же уровне как и genmo, поэтому не стал выкладывать)
Возможно, в ближайшие годы мы увидим значительный прогресс как в увеличении продолжительности и качества генерируемых роликов, так и в расширении возможностей по интерпретации сложных текстовых описаний.
Узнавайте больше про мир ИИ в телеграм-канале AIUI!