Meta AI представила нейросеть ImageBind

Она пытаетcя сымитировать способность человека к ассоциациям между модальностями, например представлять звук по картинке.

Всего в модели доступно шесть модальностей — изображения, аудио, текст, карта температур, глубин и ориентации в пространстве.
Нейросеть ничего не генерирует, а только создает ассоциации на основе реальных данных, однако вывод модели можно использовать как подсказку для других — таким образом разработчики демонстрируют генерацию изображений по звуковой подсказке, используя предобученную DALLE-2.
Веса модели и код, нужный для работы открыты и доступны на GitHub под некоммерческой лицензией CC-BY-NC 4.0.

Вот некоторые виды ассоциаций, которые приводят разработчики:

Изображение в аудио и наоборот (лай собаки -> фотография собаки, пение птиц -> фотография воробья)
Текст в изображение со звуком ("барабаны" -> фотография барабанов)
Звук с изображением в аудио (лай собаки + фотография пляжа -> фотография собаки на пляже)
Аудио в новое, сгенерированное изображение (звуки двигателя -> изображение с лодкой)

Исследователи отдельно отмечают, что в наборе данных не было точных соответствий между разными модальностями, поэтому они предполагают что недостающие знания возникли у модели в процессе обучения.

Источник, источник

Meta признана экстремистской организацией

#нейросети