Supertonic 3: революция в синтезе речи — 31 язык прямо на вашем устройстве.

Компания Supertone Inc. выпустила третью версию своего TTS-движка — Supertonic 3. Это не просто обновление: модель получила поддержку 31 языка, включая русский, украинский и японский, научилась имитировать живые эмоции и при этом осталась достаточно лёгкой, чтобы работать даже на смартфоне без интернета.

Supertonic — это система синтеза речи (Text-to-Speech, TTS), разработанная корейской компанией Supertone Inc. В отличие от большинства современных TTS-решений, которые отправляют ваш текст на удалённые серверы и возвращают готовый аудиофайл, Supertonic работает полностью локально: всё вычисление происходит прямо на вашем устройстве, без единого обращения к интернету.

Модель использует ONNX Runtime — универсальный движок для инференса нейросетей, который позволяет запускать одну и ту же модель на самых разных платформах: Windows, macOS, Linux, Android, iOS, в браузере и даже на одноплатных компьютерах вроде Raspberry Pi.

Первая версия показала рекордную скорость генерации речи, вторая добавила многоязычность. Третья версия — это уже полноценный качественный скачок.

Главное обновление — резкое расширение языкового охвата. Supertonic 2 поддерживал лишь пять языков (английский, корейский, испанский, португальский и французский). Supertonic 3 расширяет открытый релиз с 5 до 31 языка.

Теперь среди поддерживаемых языков:

Русский, Украинский, Японский, Арабский, Немецкий, Итальянский, Польский, Хинди, Нидерландский, Турецкий, Шведский, Вьетнамский, Греческий, Финский, Чешский, Венгерский, Румынский, Хорватский, Эстонский, Литовский, Латышский, Словацкий, Словенский, Болгарский, Датский, Индонезийский, Португальский, Испанский, Французский, Корейский, Английский.

Это делает Supertonic 3 одним из наиболее широко охватывающих открытых TTS-движков в своём весовом классе.

Модель умеет имитировать эмоции и другие особенности живой речи вроде вздохов или кашля. Технически это реализовано через специальные теги в тексте. Supertonic 3 поддерживает простые теги, такие как <laugh> , <breath> и <sigh>.

Это позволяет создавать более естественно звучащую речь без необходимости записывать отдельные аудиосэмплы эмоций.

По сравнению с Supertonic 2, третья версия сокращает количество ошибок повтора и пропуска слов, улучшает сходство с голосом диктора для языков, поддерживавшихся ранее, и расширяет языковое покрытие с 5 до 31 языка.

Система использует трёхкомпонентную схему генерации речи высокого качества:

Speech Autoencoder — преобразует звуковые волны в непрерывные латентные аудиопредставления.
Text-to-Latent Module — с помощью flow-matching переводит текст напрямую в аудиопризнаки.
Duration Predictor — управляет естественным темпом и ритмом речи.

Supertonic TTS использует механизм кросс-внимания для автоматического выравнивания текста и речи в процессе генерации, сохраняя простой, но мощный рабочий процесс.

Скорость — одна из главных особенностей Supertonic. Supertonic TTS генерирует речь со скоростью до 167 раз быстрее реального времени на потребительском железе, например на M4 Pro. Это означает, что одна секунда аудио создаётся менее чем за 0,01 секунды.

Supertonic 3 быстро работает на CPU, даже по сравнению с более крупными системами, тестировавшимися на GPU класса A100, и потребляет значительно меньше памяти. Модель не требует видеокарты, что существенно упрощает локальное развёртывание, в браузере и на граничных устройствах.

Таблица сравнения скоростей. RTF = время генерации / длительность аудио. Чем ниже — тем быстрее.

Примерно с 99 млн параметров в публичных ONNX-файлах, Supertonic 3 значительно меньше открытых TTS-систем класса 0,7–2 млрд параметров. Меньший размер модели является практическим преимуществом с точки зрения объёма загружаемых данных, времени запуска и локального инференса.

Одно из ключевых технических достижений Supertonic — способность правильно читать сложный текст «из коробки». Система обрабатывает сложные текстовые выражения без предобработки. Она корректно интерпретирует финансовые суммы вроде $1.5M или €2 500,00, временные выражения 3:45 PM или Mon, Jan 15, телефонные номера с кодами городов и технические единицы с десятичными значениями.

В тестах Supertonic оказался единственной системой среди всех протестированных (включая ElevenLabs, OpenAI TTS-1 и Gemini), которая правильно справилась с такими выражениями, как $5.2M, Wed, Apr 3, 2024 at 4:45 PM, (212) 555-0142 ext. 402 и 2.3h at 30kph.

Попробовать Supertonic 3 прямо в браузере можно по адресу:

👉 https://huggingface.co/spaces/Supertone/supertonic-3

pip install supertonic

from supertonic import TTS tts = TTS(auto_download=True) style = tts.get_voice_style(voice_name="M1") text = "Привет! Это текст на русском языке." wav, duration = tts.synthesize(text, voice_style=style, lang="ru") tts.save_audio(wav, "output.wav") print(f"Сгенерировано {duration:.2f} сек. аудио")

При первом запуске модель автоматически скачается с Hugging Face. Интернет нужен только один раз — для загрузки весов.

Supertonic TTS поддерживает несколько сред выполнения, включая ONNX Runtime для CPU-обработки и WebGPU для ускорения в браузере. Реализации доступны для: Python, Node.js, браузера (WebGPU/WASM), Java, C++, C#, Go, Swift, iOS, Rust и Flutter.

git clone https://github.com/supertone-inc/supertonic.git cd supertonic # Установить Git LFS (для скачивания моделей) brew install git-lfs && git lfs install # macOS # Скачать модели v3 git clone https://huggingface.co/Supertone/supertonic-3 assets

На базе Supertonic построен ряд реальных продуктов:

TLDRL — Chrome-расширение, мгновенно озвучивающее любую веб-страницу
Read Aloud — популярный open-source TTS-плагин для Chrome и Edge
PageEcho — читалка электронных книг для iOS
VoiceChat — голосовой чат с языковой моделью прямо в браузере
OmniAvatar — генерация говорящего аватара из фото + текст в речь

Код примеров: лицензия MIT (полностью открытая)
Модели: лицензия OpenRAIL-M (необходимо ознакомиться с ограничениями на коммерческое использование)

Supertonic 3 — это серьёзная заявка на лидерство среди открытых TTS-систем для локального запуска. Расширение с 5 до 31 языка превращает его из нишевого инструмента в универсальное решение, пригодное для разработчиков со всего мира, включая русскоязычную аудиторию.

Главные козыри: работа без интернета, молниеносная скорость, поддержка сложных текстов без предобработки, теги эмоций и компактный размер модели (~99M параметров), конкурирующий с системами в 10–20 раз тяжелее.

Ссылки:

Supertonic 3: революция в синтезе речи — 31 язык прямо на вашем устройстве.

Что такое Supertonic и зачем это нужно

Что нового в Supertonic 3

31 язык вместо пяти

Эмоции и живая речь

Стабильность чтения и качество голоса

Архитектура: как это работает

Производительность: быстрее, чем реальное время

Сравнение скоростей (2 шага инференса)

Размер модели: маленький, но мощный

Умная обработка текста без предобработки

Где запустить и как использовать

Онлайн-демо

Python — самый простой способ

Другие платформы

Локальная установка через репозиторий

Где это уже применяется

Лицензия

Итог