Supertonic 3: революция в синтезе речи — 31 язык прямо на вашем устройстве.
Компания Supertone Inc. выпустила третью версию своего TTS-движка — Supertonic 3. Это не просто обновление: модель получила поддержку 31 языка, включая русский, украинский и японский, научилась имитировать живые эмоции и при этом осталась достаточно лёгкой, чтобы работать даже на смартфоне без интернета.
Что такое Supertonic и зачем это нужно
Supertonic — это система синтеза речи (Text-to-Speech, TTS), разработанная корейской компанией Supertone Inc. В отличие от большинства современных TTS-решений, которые отправляют ваш текст на удалённые серверы и возвращают готовый аудиофайл, Supertonic работает полностью локально: всё вычисление происходит прямо на вашем устройстве, без единого обращения к интернету.
Модель использует ONNX Runtime — универсальный движок для инференса нейросетей, который позволяет запускать одну и ту же модель на самых разных платформах: Windows, macOS, Linux, Android, iOS, в браузере и даже на одноплатных компьютерах вроде Raspberry Pi.
Первая версия показала рекордную скорость генерации речи, вторая добавила многоязычность. Третья версия — это уже полноценный качественный скачок.
Что нового в Supertonic 3
31 язык вместо пяти
Главное обновление — резкое расширение языкового охвата. Supertonic 2 поддерживал лишь пять языков (английский, корейский, испанский, португальский и французский). Supertonic 3 расширяет открытый релиз с 5 до 31 языка.
Теперь среди поддерживаемых языков:
Русский, Украинский, Японский, Арабский, Немецкий, Итальянский, Польский, Хинди, Нидерландский, Турецкий, Шведский, Вьетнамский, Греческий, Финский, Чешский, Венгерский, Румынский, Хорватский, Эстонский, Литовский, Латышский, Словацкий, Словенский, Болгарский, Датский, Индонезийский, Португальский, Испанский, Французский, Корейский, Английский.
Это делает Supertonic 3 одним из наиболее широко охватывающих открытых TTS-движков в своём весовом классе.
Эмоции и живая речь
Модель умеет имитировать эмоции и другие особенности живой речи вроде вздохов или кашля. Технически это реализовано через специальные теги в тексте. Supertonic 3 поддерживает простые теги, такие как <laugh> , <breath> и <sigh>.
Это позволяет создавать более естественно звучащую речь без необходимости записывать отдельные аудиосэмплы эмоций.
Стабильность чтения и качество голоса
По сравнению с Supertonic 2, третья версия сокращает количество ошибок повтора и пропуска слов, улучшает сходство с голосом диктора для языков, поддерживавшихся ранее, и расширяет языковое покрытие с 5 до 31 языка.
Архитектура: как это работает
Система использует трёхкомпонентную схему генерации речи высокого качества:
- Speech Autoencoder — преобразует звуковые волны в непрерывные латентные аудиопредставления.
- Text-to-Latent Module — с помощью flow-matching переводит текст напрямую в аудиопризнаки.
- Duration Predictor — управляет естественным темпом и ритмом речи.
Supertonic TTS использует механизм кросс-внимания для автоматического выравнивания текста и речи в процессе генерации, сохраняя простой, но мощный рабочий процесс.
Производительность: быстрее, чем реальное время
Скорость — одна из главных особенностей Supertonic. Supertonic TTS генерирует речь со скоростью до 167 раз быстрее реального времени на потребительском железе, например на M4 Pro. Это означает, что одна секунда аудио создаётся менее чем за 0,01 секунды.
Supertonic 3 быстро работает на CPU, даже по сравнению с более крупными системами, тестировавшимися на GPU класса A100, и потребляет значительно меньше памяти. Модель не требует видеокарты, что существенно упрощает локальное развёртывание, в браузере и на граничных устройствах.
Сравнение скоростей (2 шага инференса)
Размер модели: маленький, но мощный
Примерно с 99 млн параметров в публичных ONNX-файлах, Supertonic 3 значительно меньше открытых TTS-систем класса 0,7–2 млрд параметров. Меньший размер модели является практическим преимуществом с точки зрения объёма загружаемых данных, времени запуска и локального инференса.
Умная обработка текста без предобработки
Одно из ключевых технических достижений Supertonic — способность правильно читать сложный текст «из коробки». Система обрабатывает сложные текстовые выражения без предобработки. Она корректно интерпретирует финансовые суммы вроде $1.5M или €2 500,00, временные выражения 3:45 PM или Mon, Jan 15, телефонные номера с кодами городов и технические единицы с десятичными значениями.
В тестах Supertonic оказался единственной системой среди всех протестированных (включая ElevenLabs, OpenAI TTS-1 и Gemini), которая правильно справилась с такими выражениями, как $5.2M, Wed, Apr 3, 2024 at 4:45 PM, (212) 555-0142 ext. 402 и 2.3h at 30kph.
Где запустить и как использовать
Онлайн-демо
Попробовать Supertonic 3 прямо в браузере можно по адресу:
Python — самый простой способ
При первом запуске модель автоматически скачается с Hugging Face. Интернет нужен только один раз — для загрузки весов.
Другие платформы
Supertonic TTS поддерживает несколько сред выполнения, включая ONNX Runtime для CPU-обработки и WebGPU для ускорения в браузере. Реализации доступны для: Python, Node.js, браузера (WebGPU/WASM), Java, C++, C#, Go, Swift, iOS, Rust и Flutter.
Локальная установка через репозиторий
Где это уже применяется
На базе Supertonic построен ряд реальных продуктов:
- TLDRL — Chrome-расширение, мгновенно озвучивающее любую веб-страницу
- Read Aloud — популярный open-source TTS-плагин для Chrome и Edge
- PageEcho — читалка электронных книг для iOS
- VoiceChat — голосовой чат с языковой моделью прямо в браузере
- OmniAvatar — генерация говорящего аватара из фото + текст в речь
Лицензия
- Код примеров: лицензия MIT (полностью открытая)
- Модели: лицензия OpenRAIL-M (необходимо ознакомиться с ограничениями на коммерческое использование)
Итог
Supertonic 3 — это серьёзная заявка на лидерство среди открытых TTS-систем для локального запуска. Расширение с 5 до 31 языка превращает его из нишевого инструмента в универсальное решение, пригодное для разработчиков со всего мира, включая русскоязычную аудиторию.
Главные козыри: работа без интернета, молниеносная скорость, поддержка сложных текстов без предобработки, теги эмоций и компактный размер модели (~99M параметров), конкурирующий с системами в 10–20 раз тяжелее.
Ссылки: