NVIDIA представила нейросеть для создания видео по описанию — пиво и животные получаются лучше всего

Она позволяет генерировать небольшие, но довольно детализированные клипы.

  • Компания показала возможности технологии VideoLDM в рамках конференции IEEE по компьютерному зрению и распознаванию образов.
  • Усовершенствованная нейросеть NVIDIA позволяет создавать ролики продолжительностью около пяти секунд в разрешении до 2048х1280 пикселей и с частотой 24 fps. Алгоритмы генерируют видео на основе как простых текстовых запросов вроде «собака плывёт», так и на базе более сложных, например, «медведь в лесу играет на пианино, пригласив группу лесных зверей подпевать».
  • Нейросеть учитывает около 4,1 миллиарда параметров, 2,7 миллиарда из которых обучились на видео.
  • В NVIDIA сообщили, что добились заметного прогресса в обучении нейросети, которая всего за месяц стала генерировать гораздо более детализированные и соответствующие описанию видео.
  • Нейросеть NVIDIA пока недоступна в открытом доступе. Компания опубликовала несколько примеров её работы на своём сайте.

Примеры работы нейросети

317317
200 комментариев

Комментарий недоступен

211

Лучше, где Уилл Смит нашел плантацию травы.

96

Комментарий недоступен

37

с фрикадельками забыл!

33

И кстати качество анимации тут намного лучше. У нвидии прям видно, что сначала генерировалось низкое разрешение и маленькое количество кадров, а потом просто апскейлилось и сглаживалось...

5

От такого кошмары пойдут!

1

Так это я, когда мама сварила макароны! 😃 Только я белый 😐

1