Вичи Бичи пытаются победить Radial Attention (и у них получается... ну почти)

Ну, в принципе работает. И работает прямо скажем ОЧЕНЬ ХОРОШО. Но как и с любой бочкой дегтя найдется любитель чего-нибудь сладкого на закуску... и тут похоже тоже.

А проблема такая. В 768 на 768 все работает отлично. В 960 на 960 вроде тоже, хотя случаются какие-то сбои. А вот в чем-то другом... Похоже придется учитывать эту формулу... Сейчас пытаюсь прояснить данный вопрос у разработчиков.

The 'number of video tokens' must be divisible by 128, see video_token_num for details For Wan 2.1 and 2.2 14B, this number is computed by width/16 * height/16 * (length+3)/4 For Wan 2.2 5B, this number is computed by width/32 * height/32 * (length+3)/4 (A misunderstanding is that the width and the height must be divisible by 128, but that's actually not the case.

Вичи Бичи пытаются победить Radial Attention (и у них получается... ну почти)

Это у нас без RA

А это уже с RA (т.е. видем значительное улучшение качества генераций + не забываем про более высокую скорость)

P.S. На шляпу вверху внимания не обращаем, т.к. я там самый простой промт писал "A witch in an orange hat flies on a rocket", без уточнения деталей

4