제품2026년 5월 8일 PM 06:04

OpenAI, Realtime API에 'GPT-Realtime-2' 등 음성 모델 3종 추가… 70개 입력 언어 실시간 번역 지원

OpenAI가 목요일 자사 API에 음성으로 대화·전사·번역할 수 있는 앱을 개발자가 만들 수 있도록 돕는 새 음성 인텔리전스 기능을 다수 추가한다고 밝혔다.

새로 공개된 'GPT-Realtime-2'는 사용자와 자연스럽게 대화할 수 있는 음성 시뮬레이션을 위한 모델로, 이전 모델인 GPT-Realtime-1.5의 후속작이다. OpenAI는 이번 모델이 더 복잡한 사용자 요청을 처리하기 위해 GPT-5급 추론(GPT-5-class reasoning)을 기반으로 구축됐다고 설명했다.

'GPT-Realtime-Translate'는 이름처럼 사용자의 발화 속도에 맞춰 실시간 번역 서비스를 제공한다. 이 기능은 70개 이상의 입력 언어(모델이 이해할 수 있는 언어)와 13개 출력 언어(발화자에게 전달되는 언어)를 지원한다.

마지막으로 OpenAI는 'GPT-Realtime-Whisper'라는 새로운 전사 기능을 출시했다. 이 모델은 대화가 진행되는 동안 실시간으로 음성을 텍스트로 변환하는 라이브 전사 기능을 제공한다.

OpenAI는 "이번에 출시한 모델들은 실시간 오디오를 단순한 콜앤리스폰스(call-and-response) 수준에서, 대화가 전개되는 동안 듣고 추론하고 번역하고 전사하며 행동까지 취할 수 있는 실질적인 음성 인터페이스로 끌어올린다"고 설명했다.

이번 업데이트의 주요 수혜자는 고객 서비스 역량을 확대하려는 기업들이라고 OpenAI는 밝혔다. 회사는 그 외에도 교육, 미디어, 이벤트, 크리에이터 플랫폼 등 다양한 분야에 활용될 수 있다고 덧붙였다.

한편 이 같은 도구가 악용될 가능성에 대해서도 대비책을 마련했다. OpenAI는 스팸·사기 등 온라인 악용을 막기 위한 가드레일을 구축했다고 밝혔으며, 시스템에 특정 트리거를 내장해 "유해 콘텐츠 가이드라인을 위반하는 것으로 감지될 경우 대화를 중단할 수 있다"고 설명했다.

새 음성 모델은 모두 OpenAI의 Realtime API에 포함되어 제공된다. 과금 방식은 GPT-Realtime-Translate와 GPT-Realtime-Whisper의 경우 분당 과금이며, GPT-Realtime-2는 토큰 소비량 기준 과금이다.

OpenAI, Realtime API에 'GPT-Realtime-2' 등 음성 모델 3종 추가… 70개 입력 언어 실시간 번역 지원

관련 기사