오픈소스 음성 합성 스튜디오 Voicebox, ElevenLabs 대안으로 깃허브 스타 15,000개 돌파
오픈소스 음성 합성 스튜디오 Voicebox가 깃허브 스타 15,619개를 기록하며 트렌딩에 진입했다. 하루에만 491개의 새 스타가 추가됐다. ElevenLabs의 무료 오픈소스 대안을 표방하는 이 프로젝트는 음성 복제, 음성 생성, 효과 적용, 음성 기반 앱 개발을 모두 로컬 환경에서 지원한다.
Voicebox는 몇 초 분량의 오디오만으로 음성을 복제할 수 있으며, 23개 언어에 걸쳐 5개 TTS 엔진을 통한 음성 생성을 지원한다. 후처리 효과 적용과 다중 화자 구성도 가능하다.
핵심 TTS 엔진으로는 약 1GB VRAM만으로 구동되며 48kHz 출력과 CPU에서 150배 실시간 속도를 제공하는 Chatterbox가 있다. 아랍어, 덴마크어, 핀란드어, 그리스어, 히브리어, 힌디어 등을 포함한 23개 언어를 지원하는 Chatterbox Multilingual 엔진도 제공된다.
영어 전용 고속 모델인 Chatterbox Turbo는 350M 파라미터 규모로, 감정과 사운드 태그를 활용한 표현력 있는 음성 생성이 가능하다. HumeAI의 음성-언어 모델 TADA는 1B 및 3B 파라미터 버전으로 제공되며, 700초 이상의 일관된 오디오 생성과 텍스트-음향 이중 정렬을 지원한다.
음성 생성은 비차단 방식으로 작동해 하나의 생성 요청을 보내고 즉시 다음 작업을 시작할 수 있다. 직렬 실행 큐가 GPU 경합을 방지하며, 실시간 SSE 상태 스트리밍을 지원한다. 실패한 생성은 재시도가 가능하고 크래시 시 자동 복구된다.
오디오 파일에서 음성 프로필을 생성하거나 앱 내에서 직접 녹음할 수 있으며, 프로필의 가져오기와 내보내기를 지원한다. REST API를 통해 외부 애플리케이션과 연동할 수 있어 게임 대사, 팟캐스트 제작, 접근성 도구, 음성 비서, 콘텐츠 자동화 등 다양한 활용이 가능하다.
기술 스택은 React 프론트엔드에 Tauri와 Rust 기반 데스크톱 앱, 그리고 웹 배포 구조로 구성되어 있다. 데스크톱 앱과 웹 버전 모두를 지원하는 하이브리드 아키텍처다.