연구2026년 4월 9일 PM 10:09

OpenBMB, 30개 언어 지원 토크나이저 프리 TTS 모델 VoxCPM2 오픈소스 공개

OpenBMB가 토크나이저 프리(tokenizer-free) 방식의 텍스트-음성 변환(TTS) 모델 VoxCPM2를 오픈소스로 공개했다. 깃허브에서 스타 7,337개를 기록하고 있으며, 하루에만 460개의 스타를 추가 획득하며 트렌딩에 진입했다.

VoxCPM2는 2B(20억) 파라미터 규모의 모델로, 200만 시간 이상의 다국어 음성 데이터로 학습되었다. 이산 토크나이제이션을 우회하고 엔드투엔드 확산 자기회귀 아키텍처를 통해 연속적인 음성 표현을 직접 생성하는 것이 핵심 기술이다. MiniCPM-4를 백본으로 사용한다.

한국어를 포함한 30개 언어를 지원하며, 별도의 언어 태그 없이 입력 텍스트의 언어를 자동으로 인식해 음성을 합성한다. 중국어 방언 9개(쓰촨어, 광둥어, 우어, 동북어, 허난어, 산시어, 산둥어, 톈진어, 민난어)도 추가로 지원한다.

주요 기능은 세 가지이다. 보이스 디자인(Voice Design)은 참조 오디오 없이 자연어 설명만으로 새로운 음성을 생성한다. 제어 가능한 음성 복제(Controllable Cloning)는 짧은 참조 클립에서 음색을 복제하면서 감정, 속도, 표현을 추가로 조절할 수 있다. 궁극적 복제(Ultimate Cloning)는 참조 오디오와 트랜스크립트를 함께 제공해 음색, 리듬, 감정, 스타일을 모두 충실히 재현한다.

출력 음질은 48kHz 스튜디오 품질이다. AudioVAE V2의 비대칭 인코드/디코드 설계로 16kHz 참조 오디오를 입력받아 48kHz 오디오를 직접 출력하며, 외부 업샘플러가 필요 없다. 실시간 스트리밍도 지원한다.

성능 면에서 NVIDIA RTX 4090 기준 RTF(실시간 대비 속도)는 약 0.3이며, 전용 추론 엔진 Nano-VLLM을 사용하면 약 0.13까지 낮출 수 있다. VRAM은 약 8GB가 필요하다. 이전 버전인 VoxCPM1.5(0.6B, 44.1kHz, 2개 언어)와 VoxCPM-0.5B(0.5B, 16kHz, 2개 언어)도 계속 제공된다.

모든 가중치와 코드는 Apache-2.0 라이선스로 공개되어 상업적 사용이 가능하다. SFT 및 LoRA 파인튜닝도 지원하며, 고처리량 서빙을 위한 Nano-vLLM-VoxCPM 추론 엔진도 함께 제공된다.

OpenBMB, 30개 언어 지원 토크나이저 프리 TTS 모델 VoxCPM2 오픈소스 공개

관련 기사