제품2026년 3월 26일 PM 09:02

미스트랄, 오픈소스 음성 생성 모델 Voxtral TTS 출시… 스마트워치에서도 구동

프랑스 AI 기업 미스트랄(Mistral)이 새로운 오픈소스 텍스트-음성 변환(TTS) 모델 Voxtral TTS를 출시했다. 음성 AI 어시스턴트나 고객 지원 같은 기업 활용 사례를 위해 설계된 이 모델은 ElevenLabs, Deepgram, OpenAI와 직접 경쟁하게 된다.

Voxtral TTS는 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어 등 9개 언어를 지원한다. 미스트랄의 과학운영 부사장 피에르 스톡(Pierre Stock)은 "스마트워치, 스마트폰, 노트북 등 엣지 디바이스에 탑재할 수 있는 소형 모델을 만들었으며, 비용은 시장의 다른 어떤 것보다 저렴하지만 최첨단 성능을 제공한다"고 밝혔다.

이 모델은 5초 미만의 음성 샘플로 맞춤 음성을 적용할 수 있으며, 미묘한 억양, 변곡, 억양, 말의 흐름의 불규칙성까지 포착한다. Ministral 3B를 기반으로 하며, 음성 특성을 유지하면서 언어 간 전환이 가능해 더빙이나 실시간 번역에 유용하다.

실시간 성능도 강점이다. 500자, 10초 분량의 샘플 기준 첫 오디오 출력까지 걸리는 시간(TTFA)은 90ms이다. 실시간 팩터(RTF)는 6배로, 10초 분량의 클립을 약 1.6초 만에 렌더링할 수 있다.

미스트랄은 올해 초 대용량 배치 처리용과 저지연 실시간용 음성 인식 모델 2종을 출시한 바 있다. 이번 음성 생성 모델 출시로 기업 고객을 위한 완전한 음성 제품 스위트를 갖추려는 것으로 보인다.

스톡은 "오디오, 텍스트, 이미지를 입출력으로 처리할 수 있는 엔드투엔드 플랫폼을 구축할 계획"이라며, 오픈소스와 커스터마이징 가능성이 경쟁사 대비 기업 고객 확보의 핵심 차별점이 될 것이라고 강조했다.

미스트랄, 오픈소스 음성 생성 모델 Voxtral TTS 출시… 스마트워치에서도 구동

관련 기사