슈퍼톤, 31개 언어 온디바이스 TTS 'Supertonic 3' 오픈소스 공개
한국 음성 AI 기업 슈퍼톤(Supertone)이 온디바이스 텍스트 음성 변환(TTS) 시스템 'Supertonic 3'을 오픈소스로 공개했다. ONNX 런타임 기반으로 클라우드 호출이나 API 없이 단말기 내에서 추론하며, 깃허브 저장소(supertone-inc/supertonic)와 허깅페이스 모델 허브에서 자산을 받을 수 있다.
공식 업데이트 로그에 따르면 Supertonic 3은 2026년 4월 29일 출시됐다. 핵심은 31개 언어 지원, 읽기 정확도 향상, 반복·누락 오류 감소, v2와 호환되는 공개 ONNX 자산 제공이다. 기존 통합도 동일한 추론 계약 그대로 v3로 옮길 수 있다.
모델 규모는 공개 ONNX 자산 기준 약 99M 파라미터로, 0.7B~2B급 오픈 TTS 모델 대비 훨씬 작다. 슈퍼톤은 작은 크기가 다운로드 용량·기동 시간·온디바이스 추론에서 실질적 이점이라고 설명했다.
성능 면에서는 VoxCPM2 같은 대형 오픈 TTS와 견줘 WER·CER 기준 경쟁력 있는 범위를 유지한다고 자체 평가했다. A100 GPU에서 측정된 더 큰 베이스라인 모델과 비교해 CPU에서 빠르게 동작하고 메모리 사용량도 크게 적어, 별도 GPU 없이도 로컬·브라우저·엣지 배포가 가능하다는 점을 강조했다.
언어 커버리지는 Supertonic 2의 5개 언어에서 v3의 31개로 확장됐다. 영어·한국어·일본어·아랍어·독일어·프랑스어·스페인어·힌디어·인도네시아어·베트남어·러시아어·우크라이나어 등이 포함된다.
예제 코드는 파이썬(py), Node.js, 브라우저(WebGPU/WASM), 자바, C++, C#, Go, Swift, iOS, Rust, Flutter 등 11개 환경에 대해 제공된다. 파이썬 SDK는 PyPI에 'supertonic' 패키지로 등록돼 'pip install supertonic'으로 설치하면 첫 실행 시 허깅페이스에서 모델 자산을 자동 내려받는다.
슈퍼톤이 공개한 자체 비교 표에 따르면 금융 표현(소수 통화·M/K 같은 축약 단위·통화 기호·통화 코드), 전화번호(지역번호·하이픈·내선번호), 기술 단위(소수+단위·축약 기술 표기) 같은 난도 높은 입력에서 Supertonic이 일레븐랩스(ElevenLabs)·OpenAI·제미나이(Gemini)·마이크로소프트 TTS보다 정확하게 처리됐다.
부가 기능으로는 <laugh>, <breath>, <sigh>처럼 간단한 표현 태그를 지원하며, 출력은 16비트 WAV 파일이다. 배치 추론을 지원해 처리량도 끌어올릴 수 있다.
엣지 디바이스 시연도 함께 공개됐다. 라즈베리 파이에서 실시간 TTS가 가능함을 보여주는 영상과, 오닉스 북스 고 6(Onyx Boox Go 6) 전자책 단말을 비행 모드로 둔 채 평균 RTF 0.3배로 동작하는 사례 영상이 포함됐다. 네트워크 의존이 0이라 프라이버시 보호와 오프라인 사용에 유리하다는 점을 부각한 것이다.
주변 도구도 빠르게 갖춰지고 있다. 2026년 1월 22일에는 사용자의 목소리를 영구 소유 가능한 엣지 네이티브 TTS로 만들어주는 'Voice Builder'가 가동에 들어갔고, 2025년 11월 24일에는 macOS 호환 플러터(Flutter) SDK, 같은 해 12월 10일에는 OnnxSlim으로 최적화한 ONNX 모델이 추가됐다.