구글, 70개 언어 실시간 음성 통역 모델 '제미나이 3.5 라이브 트랜슬레이트' 공개
구글이 실시간 음성-음성 번역을 위한 최신 오디오 모델 '제미나이 3.5 라이브 트랜슬레이트'를 공개했다. 이 모델은 70개가 넘는 언어를 자동으로 감지하고, 화자의 억양과 말하는 속도, 음높이를 그대로 살린 자연스러운 번역 음성을 생성한다.
기존의 '턴 방식' 시스템은 화자가 말을 마칠 때까지 기다린 뒤 번역을 내놓지만, 3.5 라이브 트랜슬레이트는 음성을 끊김 없이 연속으로 생성한다. 품질을 높이려 맥락을 기다리는 것과 화자와 속도를 맞추려 곧바로 번역하는 것 사이에서 균형을 잡아, 어색한 멈춤 없이 화자보다 몇 초 정도만 뒤처진 채 통역을 이어간다.
출시는 오늘부터 구글 제품 전반에 걸쳐 단계적으로 진행된다. 개발자는 제미나이 라이브 API와 구글 AI 스튜디오를 통해 퍼블릭 프리뷰로, 기업은 이번 달 구글 미트에서 프라이빗 프리뷰로 이용할 수 있으며, 일반 사용자는 안드로이드와 iOS의 구글 번역 앱으로 만나볼 수 있다.
이 모델은 음성을 스트리밍되는 대로 처리하며, 별도 설정 없이도 여러 언어가 섞인 입력을 다룬다. 또한 소음에 강해 시끄럽고 예측하기 어려운 환경에서도 작동하도록 설계됐다. 다국어 통화나 회의, 수업, 방송 등에서 실시간 통역을 돕는 데 활용할 수 있다.
개발자 플랫폼인 아고라, 피시잼, 라이브킷, 파이프캣, 비전 에이전트 등은 제미나이 라이브 API를 활용해 음성 번역 앱을 손쉽게 구축하고 배포하도록 지원한다. 이들 통합은 복잡한 실시간 미디어 스트리밍 인프라를 대신 처리해, 개발자가 사용자 경험에 집중하도록 돕는다.
동남아 차량호출 기업 그랩은 픽업 과정에서 운전자와 여행자 간 다국어 소통을 위해 이 모델을 시험하고 있다. 그랩 이용자들은 매월 1천만 건이 넘는 음성 통화를 주고받는다. 이 밖에 CJ ENM, 라이브킷 등도 번역 품질과 정확도, 낮은 지연 시간을 높이 평가했다.
구글 미트의 음성 번역도 곧 3.5 라이브 트랜슬레이트를 적용한다. 지원 언어가 기존 5개에서 70개 이상으로 늘고, 한 회의에서 2천 개가 넘는 언어 조합으로 대화할 수 있게 된다. 기존에는 영어와 주고받는 번역만 가능했다. 이 업데이트는 이번 달 일부 비즈니스용 구글 워크스페이스 고객을 대상으로 프라이빗 프리뷰로 시작해 올해 안에 더 넓게 확대된다.
구글 번역 앱에서는 안드로이드와 iOS 모두에서 전 세계에 순차 배포된다. 라이브 번역 기능을 쓸 때 헤드폰을 연결하면 70개가 넘는 언어에서 화자의 어조를 살린 번역을 들을 수 있다. 안드로이드에서는 헤드폰 없이 휴대전화 이어피스로 번역을 들려주는 '리스닝 모드'도 도입된다. 휴대전화를 일반 통화처럼 귀에 대면 번역된 음성이 바로 흘러나온다.
한편 이 모델이 생성하는 모든 오디오에는 구글의 워터마크 기술 SynthID가 적용된다. 사람 귀에는 들리지 않게 음성 출력에 새겨지는 이 워터마크는 AI가 만든 콘텐츠를 식별할 수 있게 해 허위정보 확산을 막는 데 쓰인다.