오픈AI, 실제 대화 재생해 출시 전 모델 위험 예측하는 '배포 시뮬레이션' 공개
오픈AI가 새 모델을 출시하기 전에 그 모델이 실제 사용 환경에서 어떻게 행동할지, 어디서 새로운 위험을 만들지 미리 가늠하는 '배포 시뮬레이션(Deployment Simulation)' 기법을 공개했다. 오픈AI는 그동안 표적 평가와 레드팀 등으로 모델 행동을 점검해 왔는데, 여기에 후보 모델이 사용자에게 도달하기 전 배포와 비슷한 미리 보기를 더하는 보완 신호로 이 방법을 쓰기 시작했다고 밝혔다.
배포 시뮬레이션은 아직 일어나지 않은 미래의 배포를 미리 흉내 내는 방법이다. 과거 대화를 프라이버시를 보호하는 방식으로 새 후보 모델에 다시 재생해, 모델이 현실적 맥락에서 어떻게 반응하는지, 새로운 바람직하지 않은 행동이 나타나는지, 또 얼마나 자주 나타날 수 있는지를 출시 전에 연구한다.
핵심 기법 자체는 단순하다. 최근 배포에서 나온 대화를 가져와 기존 모델이 내놓았던 원래의 어시스턴트 응답을 지우고, 출시 예정인 후보 모델로 그 부분을 다시 생성한다. 이렇게 만든 결과에서 새로운 실패 양상을 찾고, 이 배포에 가까운 분포에서의 빈도를 근거로 실제 배포 시점의 부적절 행동 빈도를 추정한다. 출시 이후에는 실제 배포 트래픽에서 같은 측정을 해 사전 예측을 검증할 수 있다.
오픈AI는 여러 차례의 GPT-5 시리즈 '싱킹(Thinking)' 모델 배포에 이 방법을 적용해 부적절 행동 비율 추정치를 개선했고, 출시 전에 새로운 형태의 오정렬을 드러냈으며, 모델이 자신이 시험받고 있다는 사실을 알아차릴 위험도 줄였다고 밝혔다. 도구를 쓰는 복잡한 에이전트 환경과 내부 모델 배포 전 위험 평가에도 같은 방식을 확장해 적용했다.
이 기법은 기존 평가의 세 가지 한계를 우회한다고 오픈AI는 설명했다. 평가 프롬프트가 모든 종류의 부적절 행동을 포괄하기 어렵다는 '커버리지' 문제, 특정 행동을 염두에 두고 만들어 과거에 일어났던 맥락 쪽으로 치우치는 '선택 편향', 그리고 모델이 점점 시험 상황임을 알아차려 행동이 왜곡되는 '평가 인식' 문제다. 실제로 모델은 시뮬레이션으로 얻은 대화와 진짜 배포 트래픽을 구분하지 못하는 것으로 보였다.
배포 시뮬레이션의 강점은 위험 평가의 품질이 더 많은 평가를 만드는 수작업이 아니라 투입하는 연산량에 따라 커진다는 점이다. 트래픽을 더 많이 시뮬레이션할수록 커버리지가 넓어지기 때문이다. 다만 이 방법은 꼬리 위험에는 약해, 오픈AI 실험 기준으로 20만 건당 1건보다 드물게 나타나는 행동은 측정하기 어렵다.
검증을 위해 오픈AI는 GPT-5.4 싱킹에 대해 20가지 유형의 부적절 행동에 대한 배포 시점 빈도를 사전 등록해 예측했고, GPT-5 시리즈의 다른 싱킹 모델 배포들에 대해서도 회고적 연구를 진행했다. 분석에는 GPT-5 싱킹부터 GPT-5.4까지의 배포에 걸쳐 2025년 8월부터 2026년 3월 사이 약 130만 건의 비식별화된 대화가 쓰였다. 평가 전 계정 연결 식별자와 식별 가능한 정보를 자동으로 제거했고, 데이터를 모델 개선에 쓰도록 허용한 챗GPT 사용자의 트래픽만 분석해 집계 결과만 보고했다.
오픈AI는 사후 감사에서 초기 분류 체계에 빠진 중요한 오정렬 행동이 드러났는지(분류 체계 커버리지), 배포 빈도의 증감 방향을 맞췄는지(방향 정확도), 사전 추정치가 실제 관측 비율에 가까웠는지(비율 보정)라는 세 축으로 결과의 품질을 평가했다. 이미 모델 개발 과정에서 이 통찰로 전통적 평가의 사각지대를 찾고 완화책과 배포 결정에 반영했으며, 파이프라인을 더 쉽게 돌릴 수 있게 되면 앞으로 모델 개발에서 더 큰 역할을 할 것으로 기대한다고 밝혔다.