구글, AI 음성 모델 Gemini 3.1 Flash TTS 공개… Elo 1,211점, 70개 이상 언어 지원
구글이 차세대 텍스트-투-스피치(TTS) 모델인 Gemini 3.1 Flash TTS를 공개했다. 이 모델은 향상된 제어성, 표현력, 음질을 갖춰 개발자, 기업, 일반 사용자가 차세대 AI 음성 애플리케이션을 구축할 수 있도록 설계되었다.
Gemini 3.1 Flash TTS는 개발자용으로 Gemini API와 Google AI Studio에서 프리뷰로 제공되며, 기업용으로는 Vertex AI에서, 워크스페이스 사용자에게는 Google Vids를 통해 순차적으로 출시된다.
음성 품질 면에서 구글은 이 모델이 자사 역대 가장 자연스럽고 표현력 있는 TTS 모델이라고 설명했다. Artificial Analysis TTS 리더보드에서 수천 건의 블라인드 인간 선호도 평가를 기반으로 Elo 점수 1,211점을 기록했다.
Artificial Analysis는 Gemini 3.1 Flash TTS를 높은 음성 생성 품질과 낮은 비용의 이상적인 조합을 갖춘 가장 매력적인 사분면에 배치했다. 이 모델은 네이티브 멀티 스피커 대화, 70개 이상 언어 지원, 자연어 기반의 세밀한 크리에이티브 제어 기능을 제공한다.
새로 도입된 오디오 태그 기능은 텍스트 입력에 자연어 명령을 직접 삽입해 음성 스타일, 속도, 전달 방식을 제어할 수 있는 직관적인 방식이다. 이를 통해 AI 음성 출력의 세밀한 조정이 가능해졌다.
Google AI Studio에서는 개발자가 감독석에 앉아 제어할 수 있는 구성 기능을 제공한다. 장면 연출로 환경을 설정하고 대화 지시를 내릴 수 있으며, 화자별 세부 설정으로 고유한 오디오 프로필을 배정하고 속도, 톤, 악센트를 조절할 수 있다.
원활한 내보내기 기능으로 설정된 매개변수를 Gemini API 코드로 내보내 다양한 프로젝트와 플랫폼에서 일관된 음성을 유지할 수 있다. 이를 통해 개발자들은 특정 시나리오에 맞는 정밀한 음성 제어가 가능해진다.
Gemini 3.1 Flash TTS로 생성된 모든 오디오에는 SynthID 워터마크가 적용된다. 이 감지 불가능한 워터마크는 오디오 출력에 직접 삽입되어 AI 생성 콘텐츠의 신뢰할 수 있는 탐지를 통해 허위 정보 확산 방지에 기여한다.