GPT-5.5, 영국 AISI 사이버 평가서 Mythos Preview 동급 도달… Expert 71.4% vs 68.6%·TLO 3/10 vs 2/10·러스트 디스어셈블러 10분22초·1.73달러
Anthropic이 지난달 Mythos Preview 모델의 사이버보안 위협이 크다며 초기 배포를 'critical industry partners'에 한정했지만, 지난주 일반에 공개된 OpenAI GPT-5.5가 비슷한 수준의 사이버 평가 결과를 보였다는 영국 AISI 평가가 나왔다.
영국 AI Security Institute(AISI)는 2023년부터 다수의 프런티어 AI 모델을 95개의 Capture the Flag 챌린지로 평가해왔다. 챌린지는 리버스 엔지니어링, 웹 익스플로이테이션, 암호학 등 사이버보안 과제 능력을 시험한다.
최고 난도 'Expert' 과제에서 GPT-5.5는 평균 71.4%를 통과해 Mythos Preview의 68.6%를 소폭 웃돌았다. AISI는 이 차이가 오차 범위 내라고 명시했다.
특히 까다로운 과제로 꼽힌 러스트(Rust) 바이너리를 디코딩하는 디스어셈블러 빌드에서 GPT-5.5는 인간 보조 없이 10분 22초 만에 해결했고, API 비용은 1.73달러였다고 AISI는 전했다.
AISI가 32단계 기업 네트워크 데이터 추출 공격을 시뮬레이션하기 위해 구축한 'The Last Ones(TLO)' 시험장에서도 GPT-5.5는 Mythos Preview와 동등한 진척을 보였다. GPT-5.5는 10회 시도 중 3회, Mythos Preview는 10회 시도 중 2회 성공했다. 이전에 평가된 어떤 모델도 TLO에서 단 한 번도 성공한 적이 없었다.
다만 AISI가 발전소 제어 소프트웨어 교란 시도를 시뮬레이션하는 더 어려운 'Cooling Tower'에서 GPT-5.5는 여전히 실패했다. 이전에 평가된 모든 AI 모델 역시 같은 시뮬레이션을 통과한 적이 없다.
관련 기사
마이크로소프트, 'Claude Mythos Preview 출시 직후' 프런티어 AI 사이버보안 권고 4가지 공개… Anthropic Glasswing·OpenAI Trusted Access·DARPA AICC·GitHub OSS 펀드 명시
美 국방부, OpenAI·구글·MS·아마존·엔비디아·xAI·Reflection과 기밀 환경 AI 사용 계약… Anthropic은 공급망 리스크로 제외, 2억 달러 기존 계약은 무효화
백악관, Anthropic 강경 노선 재검토… 다중공급사 채택 메모로 공급망 리스크 지정 우회 허용, Mythos 50→120사 확대엔 컴퓨트 부담 들어 제동