OpenAI, Realtime API에 음성 인텔리전스 기능 대거 추가… GPT-Realtime-2·Translate·Whisper 출시
OpenAI가 목요일 자사 API에 새로운 음성 인텔리전스 기능을 다수 추가한다고 발표했다. 이번 업데이트는 사용자와 대화하고, 음성을 전사하고, 대화를 번역할 수 있는 앱을 개발자들이 구축하도록 돕는 것을 목표로 한다.
새 음성 모델인 GPT-Realtime-2는 사용자와 대화 가능한 사실적 음성 시뮬레이션을 만들도록 설계됐다. 이전 모델인 GPT-Realtime-1.5와 달리, GPT-Realtime-2는 GPT-5 수준의 추론 능력을 갖춰 더 복잡한 사용자 요청을 처리할 수 있도록 만들어졌다고 OpenAI는 설명했다.
회사는 또한 GPT-Realtime-Translate를 출시했다. 이름 그대로 사용자의 대화 흐름에 맞춰 실시간 번역 서비스를 제공하는 모델이다. 이 기능은 70개 이상의 입력 언어(모델이 이해할 수 있는 언어)와 13개의 출력 언어(화자에게 전달되는 언어)를 지원한다.
마지막으로 새로운 전사 기능인 GPT-Realtime-Whisper도 함께 공개됐다. 이 모델은 상호작용이 일어나는 순간에 캡처되는 라이브 음성-텍스트(speech-to-text) 기능을 사용자에게 제공한다.
OpenAI는 "이번에 출시하는 모델들은 단순한 콜앤리스폰스에서 벗어나, 대화가 진행되는 동안 듣고 추론하고 번역하고 전사하고 행동까지 수행할 수 있는 음성 인터페이스로 실시간 오디오를 이동시킨다"고 밝혔다.
이번 업데이트의 수혜 대상은 우선 고객 서비스 역량을 확장하려는 기업들이다. 다만 OpenAI는 새 기능들이 교육, 미디어, 이벤트, 크리에이터 플랫폼 등 광범위한 영역에 걸쳐 활용될 수 있다고 덧붙였다.
엔터프라이즈 관점에서 유용해 보이는 만큼 오용 가능성도 제기된다. OpenAI는 새 기능이 스팸·사기 등 온라인 남용에 악용되는 것을 막기 위해 가드레일을 구축했다고 설명했다. 시스템에는 특정 트리거가 내장돼 있어 "유해 콘텐츠 가이드라인을 위반하는 것으로 감지될 경우 대화를 중단할 수 있도록" 했다고 회사는 밝혔다.
신규 음성 모델은 모두 OpenAI의 Realtime API에 포함된다. GPT-Realtime-Translate와 GPT-Realtime-Whisper는 분당 과금되며, GPT-Realtime-2는 토큰 소비량 기준으로 과금된다.
관련 기사
OpenAI Codex CLI 0.130.0 공개… `codex remote-control` 신설·플러그인 공유 메타데이터·Bedrock의 `aws login` 자격증명 지원
HN 'Show HN'에 'AI 에이전트용 git' re_gent(rgt) 공개… ~7.8k LOC Go·BLAKE3·SQLite·Claude Code 훅 통합, init·log·blame·show·sessions 사용 가능, rewind·gc·fork 예정
Nanoleaf, 스마트 조명서 'embodied AI'·로봇·웰니스 피벗… 올해 embodied AI 제품 최소 3종·레드라이트 테라피 신규 4종, IFA 베를린서 신제품·Matter 1.4 곧·Matter 1.5 올해