Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP +3Гипермодальный RuDolph может:Генерировать текстГенерировать изображения по тексту«Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображенияИзменять (inpainting) изображения по описаниюГенерировать текстовые описания для изображенийБыть Feature Extractor’ом для few-shot и linear probe классификацииРанжировать изображения по текстовому описаниюКлассифицировать изображения в режиме Zero-ShotПервое практическое применение РуДольфа и гипермодальных трансформеров. Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ. Наконец-то узнали калорийность нашего ректора💻 Code | 📑Paper (Soon) | 🤗HuggingFace | 🤖ColabКидайте свои результаты в комментарии и подписывайтесь на наш Telegram-канал, там мы чаще делимся своими экспериментами и новостями.