기술2025년 4월 23일 AM 09:30
한국 스타트업 나리랩스, 오픈소스 TTS 모델 Dia 공개
한국의 AI 스타트업 나리랩스(Nari Labs)가 16억 파라미터 규모의 오픈소스 텍스트-투-스피치(TTS) 모델 'Dia'를 공개했다. Apache 2.0 라이선스로 배포되어 누구나 자유롭게 사용할 수 있으며, ElevenLabs나 OpenAI 등 상용 TTS 서비스에 정면으로 도전장을 내밀었다.
Dia의 가장 큰 강점은 대화 생성에 특화되어 있다는 점이다. 텍스트 스크립트에서 여러 캐릭터의 대화를 고도로 사실적으로 생성할 수 있으며, 자연스러운 타이밍과 비언어적 표현 처리에서 경쟁 제품을 능가한다. 예를 들어 스크립트에 '(웃음)'이 포함되면 ElevenLabs나 Sesame이 '하하'로 대체하는 반면, Dia는 실제 웃음소리를 생성해낸다.
제로샷 음성 클로닝도 지원한다. 짧은 참조 오디오 클립만으로 화자의 음성을 복제할 수 있으며, 웃음, 기침, 헛기침 등 다양한 비언어적 음성 표현도 자연스럽게 생성한다. 엔터프라이즈급 GPU인 엔비디아 A4000에서 초당 약 40토큰의 추론 속도를 달성한다.
놀라운 점은 나리랩스가 정규직 1명과 파트타임 1명, 단 두 명의 엔지니어로 구성되어 있다는 사실이다. 이 극소 규모의 팀이 선도적인 상용 서비스와 대등하거나 이를 능가하는 성능을 달성한 것이다.
이번 공개는 고품질 음성 생성 기술의 민주화에 있어 중요한 이정표로 평가된다. 개발자와 사용자들이 대규모 연산 자원 없이도 로컬 환경에서 고품질 음성 합성을 구현할 수 있는 길이 열린 셈이다.