DeepL, 음성-음성 번역 스위트 출시… Zoom·Teams 애드온과 API 동시 공개
텍스트 번역으로 잘 알려진 DeepL이 음성-음성 번역 제품군을 공개하며 실시간 음성 번역 시장에 본격 진입했다. 회의, 모바일·웹 대화, 현장 근로자를 위한 맞춤 앱 기반의 그룹 대화까지 폭넓은 사용 사례를 지원하며, 외부 개발자와 기업이 콜센터 같은 맞춤 용도로 활용할 수 있도록 API도 함께 출시했다.
DeepL CEO Jarek Kutylowski는 TechCrunch 인터뷰에서 "오랜 기간 텍스트 번역에 집중해왔기에 음성은 자연스러운 다음 단계였다"며 "텍스트·문서 번역은 먼 길을 왔지만 실시간 음성 번역에는 제대로 된 제품이 없다고 판단했다"고 밝혔다.
Kutylowski는 실시간 번역 제품 개발의 핵심 과제로 레이턴시 감소와 번역 정확도 유지 사이의 균형을 꼽았다. 누군가 말을 한 뒤 번역된 음성이 재생되기까지의 지연을 최소화하면서도 정확한 결과를 유지해야 한다는 것이다.
회의용으로는 Zoom과 Microsoft Teams용 애드온이 공개됐다. 청자는 다른 참석자가 모국어로 말하는 동안 실시간 번역 음성을 듣거나 화면에 표시되는 번역 텍스트를 따라갈 수 있다. 현재 얼리 액세스 단계로, DeepL은 참여 기업을 대상으로 웨이팅 리스트를 운영한다.
대면·원격 모두 이뤄지는 모바일·웹 대화용 제품, 그리고 교육 세션이나 워크숍 같은 환경에서 참가자가 QR 코드로 참여할 수 있는 그룹 대화 기능도 함께 제공된다. 회사 측은 이 음성 번역 기술이 산업 전문 용어, 기업명, 개인 이름 같은 맞춤 어휘를 학습하고 적응할 수 있다고 밝혔다.
DeepL은 음성-음성 스택 전체를 자체 보유한다고 설명했다. 다만 현재 시스템은 음성을 텍스트로 변환한 뒤 번역하고 다시 음성으로 바꾸는 3단계 구조다. 회사는 오랜 텍스트 번역 경험으로 번역 품질에서 우위를 가진다고 자평하면서, 앞으로는 텍스트 단계를 완전히 건너뛰는 엔드-투-엔드 음성 번역 모델을 개발하겠다고 밝혔다.
Kutylowski는 자격을 갖춘 인력이 드물고 채용 비용이 높은 언어권에서 번역 계층이 기업 고객 지원을 가능하게 한다며, AI가 향후 수년간 고객 서비스의 모습을 재정의할 것이라고 전망했다.
경쟁 구도도 치열하다. 지난해 Quadrille Capital과 Teleperformance로부터 6,500만 달러를 조달한 Sanas는 콜센터 상담원을 겨냥해 실시간으로 화자의 억양을 변형하는 AI를 제공한다. 두바이에 본사를 둔 Camb.AI는 미디어·엔터테인먼트 기업을 위한 음성 합성·번역에 집중하며 영상 콘텐츠의 대규모 더빙·현지화를 지원한다.
Reddit 공동창업자 Alexis Ohanian의 Seven Seven Six가 투자한 Palabra는 의미와 원 화자의 목소리를 함께 보존하는 실시간 음성 번역 엔진을 개발 중이어서, DeepL이 새롭게 구축 중인 제품과 가장 직접적으로 맞붙는 경쟁자로 꼽힌다.