Meta AI представила нейросеть ImageBind
Она пытаетcя сымитировать способность человека к ассоциациям между модальностями, например представлять звук по картинке.
- Всего в модели доступно шесть модальностей — изображения, аудио, текст, карта температур, глубин и ориентации в пространстве.
- Нейросеть ничего не генерирует, а только создает ассоциации на основе реальных данных, однако вывод модели можно использовать как подсказку для других — таким образом разработчики демонстрируют генерацию изображений по звуковой подсказке, используя предобученную DALLE-2.
- Веса модели и код, нужный для работы открыты и доступны на GitHub под некоммерческой лицензией CC-BY-NC 4.0.
Вот некоторые виды ассоциаций, которые приводят разработчики:
- Изображение в аудио и наоборот (лай собаки -> фотография собаки, пение птиц -> фотография воробья)
- Текст в изображение со звуком ("барабаны" -> фотография барабанов)
- Звук с изображением в аудио (лай собаки + фотография пляжа -> фотография собаки на пляже)
- Аудио в новое, сгенерированное изображение (звуки двигателя -> изображение с лодкой)
Исследователи отдельно отмечают, что в наборе данных не было точных соответствий между разными модальностями, поэтому они предполагают что недостающие знания возникли у модели в процессе обучения.
Meta признана экстремистской организацией
4 комментария