NVIDIA, 실시간 양방향 음성 대화 모델 PersonaPlex 오픈소스 공개… 깃허브 스타 8,500개 돌파
NVIDIA가 실시간 양방향(full-duplex) 음성 대화 모델 PersonaPlex를 오픈소스로 공개했다. 이 모델은 텍스트 기반 역할 프롬프트와 오디오 기반 음성 컨디셔닝을 통해 페르소나 제어가 가능한 음성-음성(speech-to-speech) 대화 모델로, 공개 이후 깃허브에서 스타 8,500개 이상을 기록하며 주목받고 있다.
PersonaPlex는 합성 대화 데이터와 실제 대화 데이터를 결합하여 학습되었으며, 일관된 페르소나를 유지하면서 자연스럽고 저지연의 음성 상호작용을 생성한다. Moshi 아키텍처와 가중치를 기반으로 구축되었으며, 70억(7B) 파라미터 규모의 모델이 Hugging Face를 통해 제공된다.
이 모델은 다양한 음성을 지원한다. 자연스러운 대화체 음성(Natural) 8종과 변형 음성(Variety) 10종을 포함해 총 18종의 사전 패키지 음성 임베딩을 제공하며, 남녀 각각 여러 유형의 음성을 선택할 수 있다.
PersonaPlex는 세 가지 주요 활용 시나리오를 지원한다. 첫째, 지식 기반 질의응답이 가능한 어시스턴트 역할이다. 둘째, 특정 업체와 담당자 정보를 프롬프트로 설정하여 고객 서비스 시나리오를 구현할 수 있다. 셋째, Fisher English Corpus 기반의 일상 대화 시나리오를 지원한다.
고객 서비스 역할에서는 폐기물 관리, 레스토랑 주문, 드론 렌탈 등 구체적인 비즈니스 시나리오를 텍스트 프롬프트만으로 설정할 수 있다. 가격, 스케줄, 메뉴 등 세부 정보를 프롬프트에 포함하면 모델이 해당 역할에 맞는 응대를 수행한다.
기술적으로 PersonaPlex는 Helium LLM 백본의 범용 능력을 계승하여, 학습 데이터 분포 밖의 프롬프트에도 응답할 수 있는 일반화 성능을 갖추고 있다. NVIDIA 연구진은 예시로 화성 미션 우주비행사 시나리오와 같은 비표준 상황에서도 대화가 가능하다고 밝혔다.
코드는 MIT 라이선스로 공개되었고, 모델 가중치는 NVIDIA Open Model 라이선스로 배포된다. Python으로 작성되어 pip를 통해 설치할 수 있으며, GPU 메모리가 부족한 경우 CPU 오프로드 옵션도 지원한다.
관련 논문은 arXiv(2602.06053)에 게재되어 있으며, Rajarshi Roy, Jonathan Raiman, Sang-gil Lee 등 NVIDIA 연구진이 참여했다. FullDuplexBench를 통한 사용자 인터럽션, 백채널, 부드러운 턴 테이킹 등의 평가 기준도 함께 공개되었다.