OpenAI, 음성 AI GPT-Realtime-2 공개… Big Bench Audio 96.6%로 15포인트 향상
OpenAI가 음성 에이전트를 위한 신규 API 음성 모델 3종을 공개했다. 새로 발표된 모델은 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper로, 음성 에이전트의 추론 능력과 도구 사용, 실시간 대화 처리 능력을 한층 강화한 것이 특징이다.
Realtime-2 모델은 GPT-5 수준의 추론 능력을 실시간 음성 대화에 적용한다. 여러 도구를 동시에 사용할 수 있으며, 생각하면서 동시에 말하는 기능과 더욱 자연스러운 톤 제어를 지원한다. OpenAI는 이를 통해 음성 AI 에이전트가 자연스러운 대화 속도로 작업을 수행할 수 있게 됐다고 설명했다.
성능 지표에서도 큰 도약이 확인됐다. Big Bench Audio 벤치마크에서 Realtime-2는 96.6%를 기록해, 이전 모델의 81.4% 대비 15포인트 향상됐다. 이는 음성 AI가 실시간으로 추론하는 능력이 크게 개선됐음을 보여주는 결과다.
함께 공개된 GPT-Realtime-Translate는 70개 이상의 언어를 지원하는 실시간 통역 모델이다. 또한 GPT-Realtime-Whisper는 스트리밍 전사 모델로, OpenAI는 세 모델을 묶어 음성 에이전트 구축에 필요한 종합 도구 세트를 제공한다고 밝혔다.
초기 도입 사례도 공개됐다. OpenAI에 따르면 Zillow는 부동산 AI 에이전트에, Priceline은 음성 기반 여행 예약에, Deutsche Telekom은 고객 지원 분야에 새 모델을 활용해 서비스를 구축하고 있다.
이번 발표로 음성 AI의 ‘턴 기반(turn-based)’ 시대가 마무리되고 있다는 평가가 나온다. 새 모델은 추론과 도구 활용, 워크플로 완수를 어색한 끊김 없이 자연스러운 흐름 안에서 처리할 수 있도록 설계됐다는 점에서 그동안의 음성 인터페이스와 차별화된다.
산업 전반은 여전히 텍스트 기반 에이전트에 주목하고 있지만, 다음 물결은 타이핑이 아닌 ‘말로 하는’ 방식이 될 것이라는 전망이 제기된다. 이번 OpenAI의 모델 공개는 그 흐름을 가속화하는 신호로 받아들여지고 있다.
관련 기사
OpenAI Codex CLI 0.130.0 공개… `codex remote-control` 신설·플러그인 공유 메타데이터·Bedrock의 `aws login` 자격증명 지원
HN 'Show HN'에 'AI 에이전트용 git' re_gent(rgt) 공개… ~7.8k LOC Go·BLAKE3·SQLite·Claude Code 훅 통합, init·log·blame·show·sessions 사용 가능, rewind·gc·fork 예정
Nanoleaf, 스마트 조명서 'embodied AI'·로봇·웰니스 피벗… 올해 embodied AI 제품 최소 3종·레드라이트 테라피 신규 4종, IFA 베를린서 신제품·Matter 1.4 곧·Matter 1.5 올해