Meta AI представила нейросеть ImageBind

Она пытаетcя сымитировать способность человека к ассоциациям между модальностями, например представлять звук по картинке.

  • Всего в модели доступно шесть модальностей — изображения, аудио, текст, карта температур, глубин и ориентации в пространстве.
  • Нейросеть ничего не генерирует, а только создает ассоциации на основе реальных данных, однако вывод модели можно использовать как подсказку для других — таким образом разработчики демонстрируют генерацию изображений по звуковой подсказке, используя предобученную DALLE-2.
  • Веса модели и код, нужный для работы открыты и доступны на GitHub под некоммерческой лицензией CC-BY-NC 4.0.

Вот некоторые виды ассоциаций, которые приводят разработчики:

  • Изображение в аудио и наоборот (лай собаки -> фотография собаки, пение птиц -> фотография воробья)
  • Текст в изображение со звуком ("барабаны" -> фотография барабанов)
  • Звук с изображением в аудио (лай собаки + фотография пляжа -> фотография собаки на пляже)
  • Аудио в новое, сгенерированное изображение (звуки двигателя -> изображение с лодкой)

Исследователи отдельно отмечают, что в наборе данных не было точных соответствий между разными модальностями, поэтому они предполагают что недостающие знания возникли у модели в процессе обучения.

Meta признана экстремистской организацией

19
4 комментария