제품2026년 5월 8일 AM 03:38

OpenAI, API용 음성 모델 3종 공개… 'GPT-Realtime-2' 컨텍스트 32K→128K·Big Bench Audio 15.2%↑, 'Translate' 70개+→13개 언어, Zillow 콜 성공률 69%→95%

OpenAI가 개발자용 API에 음성 앱을 위한 새 음성 모델 3종을 동시에 공개했다. 발표된 모델은 'GPT-Realtime-2', 'GPT-Realtime-Translate', 'GPT-Realtime-Whisper'다. 'GPT-Realtime-2'는 GPT-5급 추론을 갖춘 OpenAI의 첫 음성 모델로, 더 어려운 요청을 처리하고 대화를 자연스럽게 이어갈 수 있다고 회사는 설명했다. 'GPT-Realtime-Translate'는 70개 이상의 입력 언어를 13개 출력 언어로 화자의 발화 속도에 맞춰 실시간 통역하는 모델이며, 'GPT-Realtime-Whisper'는 화자가 말하는 동안 라이브로 받아쓰기를 수행하는 스트리밍 음성-텍스트 모델이다.

OpenAI는 개발자들이 음성 AI에서 만들고 있는 세 가지 패턴을 함께 제시했다. 첫째, 'Voice-to-action'은 사용자가 필요를 말하면 시스템이 추론·툴 호출·실행을 통해 작업을 끝내는 방식으로, Zillow가 "BuyAbility 안에서 집을 찾되 번잡한 도로는 피하고 토요일 투어를 잡아달라" 같은 요청을 듣고 추론·실행하는 어시스턴트를 만드는 사례가 소개됐다. 둘째, 'Systems-to-voice'는 소프트웨어가 컨텍스트를 실시간 음성 안내로 바꾸는 방식으로, 여행 앱이 "입국편이 지연됐지만 환승은 가능합니다. 새 게이트와 터미널 최단 경로를 찾았고 수하물도 전달될 예정입니다" 식으로 안내하는 예시가 제시됐다. 셋째, 'Voice-to-voice'는 언어·작업·상황이 바뀌는 라이브 대화를 잇는 방식으로, 도이치텔레콤(Deutsche Telekom)이 고객이 가장 편한 언어로 말하고 모델이 실시간 번역하는 음성 지원 경험을 구축 중이다. 패턴 결합 사례로는 프라이스라인(Priceline)이 음성으로 항공·호텔 검색, 항공 지연 후 호텔 일정 변경, TSA 대기시간 업데이트, 현지 도착 후 통역까지 한 번에 처리하는 방향을 추구한다고 OpenAI는 전했다.

GPT-Realtime-2는 라이브 음성 대화에서 추론·툴 호출·중단·정정 처리, 상황에 맞는 응답을 동시에 수행하도록 만들어졌다. 본 답변 전 "잠시 확인해볼게요", "잠깐만요, 찾아보고 있어요" 같은 짧은 멘트를 삽입할 수 있는 'Preambles', 여러 툴을 동시에 호출하면서 "캘린더 확인 중", "지금 찾아보고 있어요" 식으로 작업을 음성으로 드러내는 'Parallel tool calls·Tool transparency', 실패 시 침묵 대신 "지금 그 부분이 잘 되지 않네요" 같이 우아하게 회복하는 응답이 새로 들어갔다. 컨텍스트 윈도는 32K에서 128K 토큰으로 확장돼 더 긴 세션과 복잡한 작업 흐름을 지원하며, 의료 용어를 포함한 전문 용어·고유명사 등 도메인 어휘 보존 능력도 강화됐다. 톤 조절이 가능해 차분하게 문제를 풀거나, 사용자가 답답해할 때 공감 어조, 성공을 알릴 때 밝은 어조 등을 제어할 수 있다고 OpenAI는 밝혔다.

추론 강도는 'minimal·low·medium·high·xhigh' 다섯 단계로 선택할 수 있고 기본값은 'low'다. 단순한 상호작용에서는 지연을 낮추고, 복잡한 요청에서는 더 신중한 추론을 적용하도록 균형을 맞췄다. 평가 결과에서도 개선이 확인됐다. GPT-Realtime-2(high)는 음성 지능을 측정하는 'Big Bench Audio'에서 GPT-Realtime-1.5 대비 15.2% 높은 점수를 받았고, GPT-Realtime-2(xhigh)는 지시 수행 능력을 보는 'Audio MultiChallenge'에서 GPT-Realtime-1.5 대비 13.8% 높은 점수를 기록했다.

Zillow는 초기 테스트 결과를 공유했다. Zillow는 "GPT-Realtime-2에서 두드러진 부분은 복잡한 음성 상호작용에서의 인텔리전스와 툴 호출 신뢰성이었다. 가장 어려운 적대적 벤치마크에서 프롬프트 최적화 후 콜 성공률이 69%에서 95%로 26%포인트 상승했다. 사업상 핵심인 공정주거(Fair Housing) 준수도 이전 모델보다 훨씬 견고해졌고, 이러한 에이전틱 역량과 가드레일 견고성의 결합이 Zillow의 프로덕션 음성에 적합하게 만든다"고 밝혔다.

GPT-Realtime-Translate는 각자가 자신이 가장 편한 언어로 말하면 대화를 실시간으로 번역해 들려주고 동시에 실시간 자막으로도 보여준다. 70개 이상의 입력 언어와 13개 출력 언어를 지원하며, 고객 지원·국경 간 영업·교육·이벤트·미디어·크리에이터 플랫폼 등 글로벌 청중을 다루는 영역을 겨냥한다. 도이치텔레콤은 다국어 음성 상호작용에서 더 낮은 지연과 더 자연스러운 유창성을 시험하고 있고, 비메오(Vimeo)는 제품 교육 영상이 재생되는 동안 글로벌 고객이 별도 번역본을 기다리지 않고 자국 언어로 들을 수 있도록 라이브 번역을 시연했다.

OpenAI가 인용한 한 인도 음성 AI 기업의 평가에 따르면, 힌디·타밀·텔루구를 아우르는 평가에서 GPT-Realtime-Translate의 단어 오류율(WER)은 비교 대상 어떤 모델보다도 12.5% 낮았다. 폴백 비율은 더 낮고 작업 완료율은 더 높았으며, 자연스러운 대화를 유지하는 지연도 함께 확인됐다는 평이다. 인도 시장 음성 AI는 다양한 지역 음운을 다뤄야 한다는 것이 회사의 설명이다.

GPT-Realtime-Whisper는 저지연 음성-텍스트 변환을 위해 만들어진 새 스트리밍 받아쓰기 모델이다. 화자가 말하는 동안 오디오를 실시간으로 받아 적어, 라이브 제품의 응답성을 높이는 데 활용된다고 OpenAI는 설명했다. 세 모델은 라이브 오디오를 단순한 호출-응답 구조에서 벗어나 듣고 추론하고 번역하고 받아 적으며 대화 흐름 속에서 실제 행동을 수행하는 음성 인터페이스로 한 단계 끌어올린다는 게 회사의 메시지다.

OpenAI, API용 음성 모델 3종 공개… 'GPT-Realtime-2' 컨텍스트 32K→128K·Big Bench Audio 15.2%↑, 'Translate' 70개+→13개 언어, Zillow 콜 성공률 69%→95%

관련 기사