정책2026년 5월 2일 AM 02:35

GPT-5.5, 영국 AISI 사이버 평가서 Mythos Preview 동급 도달… Expert 71.4% vs 68.6%·TLO 3/10 vs 2/10·러스트 디스어셈블러 10분22초·1.73달러

Anthropic이 지난달 Mythos Preview 모델의 사이버보안 위협이 크다며 초기 배포를 'critical industry partners'에 한정했지만, 지난주 일반에 공개된 OpenAI GPT-5.5가 비슷한 수준의 사이버 평가 결과를 보였다는 영국 AISI 평가가 나왔다.

영국 AI Security Institute(AISI)는 2023년부터 다수의 프런티어 AI 모델을 95개의 Capture the Flag 챌린지로 평가해왔다. 챌린지는 리버스 엔지니어링, 웹 익스플로이테이션, 암호학 등 사이버보안 과제 능력을 시험한다.

최고 난도 'Expert' 과제에서 GPT-5.5는 평균 71.4%를 통과해 Mythos Preview의 68.6%를 소폭 웃돌았다. AISI는 이 차이가 오차 범위 내라고 명시했다.

특히 까다로운 과제로 꼽힌 러스트(Rust) 바이너리를 디코딩하는 디스어셈블러 빌드에서 GPT-5.5는 인간 보조 없이 10분 22초 만에 해결했고, API 비용은 1.73달러였다고 AISI는 전했다.

AISI가 32단계 기업 네트워크 데이터 추출 공격을 시뮬레이션하기 위해 구축한 'The Last Ones(TLO)' 시험장에서도 GPT-5.5는 Mythos Preview와 동등한 진척을 보였다. GPT-5.5는 10회 시도 중 3회, Mythos Preview는 10회 시도 중 2회 성공했다. 이전에 평가된 어떤 모델도 TLO에서 단 한 번도 성공한 적이 없었다.

다만 AISI가 발전소 제어 소프트웨어 교란 시도를 시뮬레이션하는 더 어려운 'Cooling Tower'에서 GPT-5.5는 여전히 실패했다. 이전에 평가된 모든 AI 모델 역시 같은 시뮬레이션을 통과한 적이 없다.

GPT-5.5, 영국 AISI 사이버 평가서 Mythos Preview 동급 도달… Expert 71.4% vs 68.6%·TLO 3/10 vs 2/10·러스트 디스어셈블러 10분22초·1.73달러

관련 기사