앤스로픽, Claude Mythos Preview가 익스플로잇 개발서 타 모델 압도 확인
앤스로픽 레드팀이 5월 22일 자사 AI 모델 'Claude Mythos Preview'의 익스플로잇(취약점 공격 코드) 개발 능력을 측정한 결과를 공개했다. 새로 등장한 학술 벤치마크 ExploitBench와 ExploitGym, 그리고 자체 갱신한 SCONE-bench까지 세 가지 벤치마크 모두에서 Mythos Preview가 평가 대상이 된 다른 모델들을 일관되게 앞섰다.
앤스로픽은 Mythos Preview의 익스플로잇 개발 능력이 이전 프런티어 모델과 비교해 '단계적 도약'이라고 평가했다. 이 모델은 복잡한 취약점을 찾아내는 것을 넘어, 취약점을 공격에 쓸 수 있는 기본 요소인 익스플로잇 프리미티브로 바꾸고 이를 서로 조합해 완결된 공격 체인까지 만들어 낼 수 있다. 회사는 이런 점이 가장 우려스러웠기 때문에 Mythos Preview를 일반 공개 대신 'Project Glasswing'을 통해 신중하게 배포했다고 밝혔다.
앤스로픽은 당초 Mythos Preview의 능력을 새로운 제로데이를 찾아 그에 대한 익스플로잇을 만들게 하는 정성 평가로 측정했다. 그러나 모델을 내놓던 시점에는 이 능력을 정밀하게 잴 만큼 어려운 공개 익스플로잇 벤치마크가 없었다. 지난 한 달 사이 더 까다로운 두 학술 벤치마크가 등장하면서 정량 측정이 가능해졌다.
ExploitBench는 카네기멜런대학교의 Seunghyun Lee와 David Brumley 교수, 그리고 보안 기업 Bugcrowd가 함께 만든 벤치마크다. 단순히 취약점의 존재를 보여 주는 '개념 증명'에 그치지 않고, 처음부터 끝까지 작동하는 완전한 익스플로잇을 작성하는 능력을 측정하는 점이 특징이다. 익스플로잇 개발 과정을 16개 세부 능력으로 나누고 이를 다섯 단계의 능력 사다리로 구성했으며, 각 능력은 사람이나 LLM 심판 없이 프로그램으로 자동 검증된다.
이 벤치마크는 V8 자바스크립트·웹어셈블리 엔진에서 이미 패치된 취약점 41개로 V8 평가셋을 구성했다. V8 엔진은 크롬·엣지·안드로이드 웹뷰 등 크로미움 기반 애플리케이션과 Node.js 서버 환경, 그리고 VS Code·슬랙·디스코드 같은 일렉트론 앱에 두루 쓰이는 핵심 인프라다. 가장 높은 등급은 V8 프로세스 전체에 대한 임의 코드 실행을 의미하며, 브라우저에서는 탭 하나를 통째로 장악하는 것에 해당한다.
모든 모델은 300턴의 동일한 예산 환경에서 베이스라인과 넛지드 두 변형으로 각각 세 차례 시험을 거쳤다. 모든 언어 모델이 주어진 취약점에 도달하거나 이를 촉발할 수 있었지만, V8 샌드박스 내부에서 익스플로잇 프리미티브를 만드는 데 진전을 보인 것은 Claude Opus 4.6 이후 모델뿐이었다. 샌드박스를 탈출하는 단계는 또 하나의 능력 절벽이었는데, Mythos Preview는 이를 안정적으로 해낸 유일한 모델로 시험 환경의 절반 이상에서 성공했다.
베이스라인과 넛지드 변형 결과를 합산하면 Mythos Preview는 41개 CVE 가운데 21개에서 임의 코드 실행에 성공했다. 반면 다른 어떤 모델도 두 변형 어디에서도 단 한 건의 임의 코드 실행을 달성하지 못했고, 점수판에서 임의 코드 실행에 성공한 유일한 다른 모델은 독자적인 스캐폴드를 동원하고도 41개 중 2개에 성공하는 데 그쳤다.
벤치마크 저자들은 Mythos Preview의 익스플로잇 시도 일부를 심층 분석했다. 한 사례에서 Mythos Preview는 공개된 익스플로잇이 확률적이고 통제되지 않던 취약점 CVE-2023-6702에 대해 거의 결정론적으로 작동하는 익스플로잇을 만들어 냈다. 익스플로잇은 단 한 번의 시도로 끝나는 경우가 많아 안정성이 실제 거래에서 중요하다. ExploitBench 저자 중 한 명인 Seunghyun Lee는 "나는 1-day v8CTF 익스플로잇 원작자와 바로 이 익스플로잇 계획의 가능성을 사적으로 논의한 적이 있는데, 접근법이 너무 복잡해 우리는 그것을 빠르게 접었다. Mythos는 이 특정 기법에 관한 공개 정보가 전혀 없는 상태에서 이를 깔끔하고 흠 없이 실행했다"고 말했다.
두 번째 벤치마크 ExploitGym은 더 넓은 표적군에 걸쳐 언어 모델의 익스플로잇 능력을 측정한다. UC 버클리, 막스플랑크 보안·프라이버시 연구소, UC 산타바버라, 애리조나 주립대학교가 협업해 만들었으며 앤스로픽·OpenAI·구글의 보안 연구자들도 기여했다. 이 벤치마크는 OSS-Fuzz와 V8 엔진, 리눅스 커널에 걸쳐 이미 패치된 취약점 898개를 대상으로 하며, 이 세 부류는 전 세계에서 가장 많이 쓰이는 소프트웨어의 상당 부분을 아우른다.
모델은 빌드 정보와 취약점 정보, 런타임 정보, 그리고 원격 표적을 제공받아, 표적의 보안 모델이 닿지 못하게 막아야 할 권한 수준에서 코드를 실행하는 익스플로잇을 개발해야 한다. 앤스로픽은 이번 결과가 Mythos 수준의 능력이 더 널리 보급될수록 익스플로잇 개발에 필요한 지식과 전문성의 문턱이 크게 낮아질 것임을 보여 주는 추가 증거라고 평가했다.