Как оживить цифровое искусство? Создаём дипфейк и синтезируем речь с помощью Wunjo AI

Привет, DTF! Я бы хотел рассказать о своем open-source проекте Wunjo AI с открытым исходным кодом, который позволит вам из фото или нейро-искусственно сгенерированных изображения создавать дипфейк видео и синтезировать речь из текста, без каких либо ограничений контента, длительности, водяных знаков, при том, что все это бесплатно и на русском.

Бесплатно, потому что приложение запускается у вас на компьютере, и не требуется задействовать и оплачивать сервер.

В этом посте я постараюсь познакомить вас с возможностями Wunjo AI и пригласить вас в поддержать проект на GitHub.

Теперь изображения сгенерированные нейронными сетями вы сможете оживить и заставить говорить.

Синтез речи из текста: С помощью Wunjo AI вы можете преобразовать письменный текст в убедительную речь. Независимо от того, являетесь ли вы контент-создателем, рассказчиком или разрабатываете специализированные решения, передовые методы обработки естественного языка (NLP) позволят вам создавать реалистичные аудиофайлы из текста. У вас есть доступ к трем моделям - женскому, мужскому и роботизированному голосу на русском языке. Вы можете контролировать ударения знаком +. Также есть возможность добавления ваших собственных моделей Tacatron2 для голосов и использования фонемного формата русского или английского языка, такие модели можно найти в интернете, в свободном доступе в основном на английском, например голос Кратоса, Моргана Фримена, итд. Вы также можете создавать диалоги между различными персонажами с использование ChatGPT. Достаточно подключить расширение OpenAI. Как это работает, я рассказываю подробно в этой статье.

Создание дипфейковых видео: Превратите статичные изображения в динамичные видеоролики, плавно передавая мимику и жесты различных персонажей. Вы можете контролировать движения и повороты головы. Если вы используете расширение, то даже сможете генерировать изображения для #дипфейк #видео с помощью Dall-e 2. Главное, чтобы на изображении были явно видны глаза и рот, чтобы придать им жизнь. Дополнительно, готово, но еще не опубликовано, расширение, которое позволяет вам брать готовое видео, и накладывать на него свою речь, при этом дипфейк синхронизирует #речь и лицо, смотрите пример на видео и добавляет большей плавности в сравнении с основным дипфейк методом. Как работает основной дипфейк метод, я рассказываю подробно в этой статье.

Панель создания дипфейк видео. Необходимо выбрать лицо и нажать синтез видео

Расширения: Приложение поддерживает создание собственных расширений для #расширения функциональности. Например, есть расширения, позволяющие взаимодействовать с консолью, использовать GPU, обучать модели на вашем голосе или работать с ChatGPT. Список доступных расширений предоставлен в приложении. Процесс разработки расширений вдохновлен проектом AUTOMATIC1111. Как это работает, я рассказываю подробно в этой статье.

Картинки всегда хорошо, однако посмотрим как выглядит приложение работает на видео:

Видео о возможностях Wunjo AI

Вы можете установить готовый проект на Linux, MacOS или Windows.

Видео как установить на Windows

Давайте вместе сделаем Wunjo AI лучше! Сайт приложения Wunjo AI. Присоединяйтесь на GitHub (откуда бы вы ни были, хоть из Китая) и дайте волю вашей творческой энергии. Вместе мы можем создать удивительные возможности для deepfake и синтеза речи!

В будущем я буду выкладывать больше видео, чтобы познакомить вас со всеми особенностями приложения, таким как оцифровать свой голос или контролировать дипфейк на своём YouTube канале.

Также, если вам интересно узнать о том, как проект работает, следите за новостями на Хабре, я буду об этом там писать и присоединяйтесь к обсуждению проекта в этой статье.

3 комментария

bezymnbl

11.08.2023

Круто. А можно запилить русскую озвучку Балдурс Гейт?

Ответить

Wladislav Radchenko

Автор

Привет. Да. Вот статья об этом и видео https://tenchat.ru/media/1298314-privet-sintez-rechi-ili--otsifrovka-golosa-bez-navykov-programmirovaniya. Для этого нужно будет из приложения докачать расширение advanced и взять данные (аудио не менее 15 часов + текст аудио дорожек), чтобы обучить нейронную сеть.

Как оживить цифровое искусство? Создаём дипфейк и синтезируем речь с помощью Wunjo AI

Возможности

Как начать?