Wan 2.2: Новая бесплатная AI-модель для видео. Качество лучше, но есть нюансы
Игорь Телегин на связи! Недавно вышла Wen 2.2 – новая версия популярной и, что важно, бесплатной модели для генерации видео, которую многие используют в ComfyUI.
Говорят, качество картинки стало заметно лучше, но и "под капотом" все изменилось.
1. Что такое Wen 2.2 и в чем его главные отличия?
Wan – это популярная опенсорсная модель для генерации видео, которая стала хитом благодаря хорошему балансу качества и доступности. Версия 2.2 – это ее свежее обновление.
Что изменилось (коротко и по делу):
- Качество изображения: По первым отзывам, статичная картинка в видео стала заметно лучше и детализированнее, чем в предыдущих версиях.
- Движение (motion): А вот тут пока без особых прорывов. Движение все еще может быть немного "дерганым" или "пластилиновым".
- Два "мозга" вместо одного: Это главное техническое изменение. Теперь видео генерируют две диффузионные модели в паре:High noise model ("модель высокого шума"): отвечает за создание общей структуры и композиции на начальных, самых "шумных" этапах генерации.Low noise model ("модель низкого шума"): подключается на финальных этапах для прорисовки деталей и "чистки" изображения.Зачем это? Если на пальцах, это как в рисовании: сначала один художник делает грубый набросок, а второй, более детальный, прорисовывает все до мелочей. Теоретически, это должно повышать качество.
- Частота кадров 24 fps: Видео теперь генерируется в кино-стандарте 24 кадра в секунду (вместо 16 fps в версии 2.1). Это значит, что для 5-секундного ролика теперь нужно генерировать 121 кадр, а не 81.
2. Как с этим работать? (Быстрый гайд по настройкам в ComfyUI)
Если вы работаете в ComfyUI, вот ключевые моменты, на которые нужно обратить внимание при настройке воркфлоу для Wen 2.2:
- Два сэмплера: Убедитесь, что в вашем воркфлоу два KSampler-а (или их аналога). В первый подключаете high noise model, во второй – low noise model.
- Steps (Шаги генерации): Обязательно ставьте четное число! (например, 20, 30, 40). Эти шаги будут делиться поровну между двумя сэмплерами (10+10, 15+15, 20+20).
- Настройки сэмплеров: Рекомендуется ставить одинаковые параметры для обоих:CFG: Около 3.5 (для начала). Sampler: EulerScheduler: simple
- Кадры: Не забывайте, что теперь в секунде 24 кадра. Для 5 секунд ставим 121 кадр, для 3 секунд – 73 кадра и т.д.
- Upscale Factor: Лучше не трогать и оставить 1.0. По отзывам, увеличение этого параметра не сильно улучшает качество, но драматически увеличивает время генерации.
Где взять готовый воркфлоу? Проще всего развернуть Wen 2.2 через облачный сервис RunPod. Там есть готовый шаблон, в котором уже настроены все нужные воркфлоу (и для Text-to-Video, и для Image-to-Video). Нужно только выбрать мощный GPU (от 48 ГБ VRAM) и не забыть в настройках включить переменную для скачивания Wen 2.2.
3. Итог: Стало лучше или просто сложнее?
Wen 2.2 – это интересный шаг вперед для опенсорсного AI-видео.
- Плюсы: Качество самих изображений в видео действительно выросло.
- Минусы: Качество движения осталось примерно на том же уровне. Воркфлоу стал чуть сложнее из-за двух-модельной архитектуры и новых настроек.
Кому стоит пробовать?
- Энтузиастам ComfyUI, которые любят копаться в "железе" и выжимать максимум из опенсорсных моделей.
- Тем, кому важно именно качество статичной картинки, а не идеальная плавность движения.
- Всем, кто ищет бесплатную альтернативу платным видео-генераторам и готов немного поэкспериментировать.
Это не революция, но уверенная эволюция. И то, что опенсорс-сообщество продолжает так активно развивать видео-модели – это отличная новость для всех нас.
Пример видео от Wan 2.2 в Telegram!