🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP

Гипермодальный RuDolph может:

  • Генерировать текст
  • Генерировать изображения по тексту
  • «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
  • Изменять (inpainting) изображения по описанию
  • Генерировать текстовые описания для изображений
  • Быть Feature Extractor’ом для few-shot и linear probe классификации
  • Ранжировать изображения по текстовому описанию
  • Классифицировать изображения в режиме Zero-Shot

Первое практическое применение РуДольфа и гипермодальных трансформеров.

Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.
Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ.

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP
🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP
🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP
🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

Наконец-то узнали калорийность нашего ректора

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

💻 Code | 📑Paper (Soon) | 🤗HuggingFace | 🤖Colab

Кидайте свои результаты в комментарии и подписывайтесь на наш Telegram-канал, там мы чаще делимся своими экспериментами и новостями.

88 показов
111111 открытие
Начать дискуссию