영국 AI안전연구소, 앤스로픽 Mythos 사이버 공격 능력 독립 평가 공개… 32단계 침투 시뮬레이션에서 차별화
앤스로픽이 최신 AI 모델 Mythos Preview를 "소수의 핵심 산업 파트너"에게만 한정 공개한 가운데, 영국 정부의 AI안전연구소(AISI)가 해당 모델의 사이버 공격 능력에 대한 독립적인 초기 평가 결과를 발표했다. 앤스로픽은 Mythos가 "컴퓨터 보안 작업에서 놀라울 정도로 유능하다"고 밝힌 바 있으며, 이번 AISI 평가는 이에 대한 최초의 외부 검증이다.
AISI의 평가에 따르면, Mythos Preview는 개별 사이버보안 과제 수행 능력에서는 다른 최신 프론티어 모델들과 유의미한 차이를 보이지 않았다. 그러나 여러 과제를 효과적으로 연결하여 시스템 전체를 침투하는 데 필요한 다단계 공격 시퀀스를 구성하는 능력에서 기존 모델과 차별화되는 것으로 나타났다.
AISI는 2023년 초부터 다양한 AI 모델을 대상으로 자체 설계한 CTF(Capture the Flag) 챌린지를 실시해 왔다. 초기에 GPT-3.5 터보는 비교적 낮은 수준의 '견습생(Apprentice)' 과제조차 완료하지 못했으나, 이후 모델 성능은 꾸준히 향상되어 Mythos Preview는 동일한 견습생 수준 과제에서 85% 이상의 완료율을 달성했다.
다만 이 수치가 AISI CTF 테스트의 기술적 최고 기록이기는 하나, GPT-5.4와 앤스로픽의 Opus 4.6, Codex 5.3 등 경쟁 모델들도 최근 수개월간 여러 난이도의 CTF에서 5~10%포인트 범위 내의 유사한 결과를 기록한 바 있다. 개별 과제 수준에서의 차이만으로는 앤스로픽이 Mythos Preview에 대해 취한 제한적 공개 조치가 정당화되기 어려워 보인다.
Mythos가 상대적으로 더 큰 사이버 공격 잠재력을 보여준 영역은 AISI가 구축한 '더 라스트 원스(The Last Ones, TLO)' 테스트 환경이었다. TLO는 기업 네트워크를 대상으로 한 32단계 데이터 추출 공격을 시뮬레이션하도록 설계된 것으로, 여러 호스트와 네트워크 세그먼트에 걸쳐 수십 개의 단계를 연쇄적으로 수행해야 한다.
AISI는 이 TLO 테스트가 숙련된 인간 보안 전문가가 완료하는 데 약 20시간이 소요되는 수준의 지속적 작전을 모사한 것이라고 설명했다. Mythos Preview가 이러한 장기적·다단계 공격 체인에서 기존 모델 대비 우위를 보인 것은, 개별 기술이 아닌 전체 공격 흐름을 자율적으로 조율하는 능력이 한 단계 진전했음을 시사한다.
이번 AISI 평가는 개별 사이버보안 과제 수준에서는 Mythos와 다른 프론티어 모델 간 격차가 크지 않지만, 다단계 공격 연쇄 능력에서는 앤스로픽의 주장을 뒷받침하는 독립적 근거를 제공했다. AI 모델의 사이버 공격 잠재력이 개별 기술을 넘어 전체 공격 워크플로 자동화 수준으로 진화하고 있음을 보여주는 중요한 평가 사례다.