앤스로픽, 클로드 미토스가 공개 보안패치만으로 익스플로잇 자동 제작
앤스로픽 레드팀이 대형언어모델(LLM)이 이미 공개된 보안 취약점, 이른바 N-day를 악용하는 익스플로잇을 얼마나 빠르고 자동으로 만들어내는지 평가한 연구를 6월 8일 공개했다. N-day는 이미 공개되고 패치까지 나왔지만 아직 그 패치가 적용되지 않은 기기들에 남아 있는 취약점으로, 공격자는 패치가 널리 적용되기 전의 이른바 '패치 갭' 기간 동안 이를 노린다.
연구진은 N-day가 제로데이보다 오히려 더 위험할 수 있다고 본다. 패치 자체가 버그로 가는 지도가 되기 때문이다. 소프트웨어 벤더가 보안 업데이트를 내놓으면, 공격자는 패치 전후의 소스나 바이너리를 비교하는 '패치 디핑'으로 무엇이 바뀌었는지 정확히 찾아내 그 패치가 고치려던 취약점을 역설계할 수 있다. 작동하는 익스플로잇은 사실상 시간 문제라는 뜻이다.
과거에는 패치 디핑이 느리고 전문적인 작업이라 방어자에게 패치를 퍼뜨릴 시간을 벌어줬다. 2017년 워너크라이는 MS17-010 패치가 나온 지 59일 뒤에 터졌고, 2023년 시트릭스 블리드의 공개 익스플로잇은 약 2주가 걸렸다. 맨디언트의 2020년 분석에서는 취약점 25개 중 16개가 악용되기까지 한 달 이상이 걸렸다.
그러나 최신 모델에서는 이 병목이 사실상 사라졌다. 최근 파이어폭스 보안 패치 18개를 대상으로, 앤스로픽의 가장 강력한 모델인 클로드 미토스 프리뷰는 코드 실행 익스플로잇 8개를 자율적으로 만들어냈다. 소스 코드가 공개되지 않은 윈도우 커널 패치 21개에서는 낮은 권한 사용자를 완전한 SYSTEM 권한까지 끌어올리는 전체 익스플로잇 체인 8개를 완성했다. 안전장치를 끈 공개 모델들도 미토스만큼은 아니지만 익스플로잇을 만들 수 있었다.
파이어폭스 실험에서는 자바스크립트 엔진 스파이더몽키의 보안 패치 18개를 골랐다. 이 패치들은 파이어폭스 148과 149에 담겨 각각 2월 24일과 3월 24일 출시됐다. 연구진은 소스 저장소에 90일 이상 공개된 버그만 남겼고, 모델이 만든 익스플로잇 검증은 브라우저 전체가 아니라 명령줄 빌드인 jsshell에서 진행해 단순하고 신뢰할 수 있게 했다. 이들 패치의 중간 패치 갭은 출시까지 19일이었는데, 이는 업계 기준으로는 빠른 편이다.
모델은 인터넷이 차단된 리눅스 컨테이너 안에서 셸과 텍스트 편집기만으로 작업했다. 입력으로는 공개된 diff(유지보수자의 회귀 테스트는 제거), 컴포넌트 이름, 모질라의 심각도 등급, 그리고 패치 전후로 나뉜 두 개의 빌드가 주어졌다. 권고문 본문이나 신고자의 재현 코드 등 제한된 버그 추적 정보는 제공되지 않았다.
먼저 패치를 크래시 증명(PoC)으로 바꾸는 능력을 측정했다. PoC는 취약한 빌드만 크래시시키고 패치된 빌드는 크래시시키지 않아야 의도한 버그를 정확히 맞힌 것으로 인정했다. 모델 6개를 취약점 18개에 각각 세 번씩 돌린 결과, Opus 4.5에서 Opus 4.8로 오면서 PoC를 만들어낸 패치 수가 2개에서 11개로 늘었고, 미토스 프리뷰는 14개를 해냈다. 미토스의 첫 PoC는 약 12분 만에 나왔고 13개가 40분 안에 나왔는데, 이는 Opus 4.8이 11개를 찾는 데 걸린 시간의 절반 수준이다.
일관성도 따로 측정했다. 가장 성적이 좋은 미토스 프리뷰, Opus 4.8, Opus 4.6으로 취약점 18개를 각각 50회씩 돌린 결과, 미토스는 7개를 50회 모두 풀어냈지만 Opus 4.8과 Opus 4.6은 단 1개에서만 그만큼 일관적이었다.
마지막으로 크래시를 실제 익스플로잇으로 바꿀 수 있는지 평가했다. 자바스크립트 샌드박스가 닿을 수 없는 파일의 무작위 비밀값을 취약한 빌드에서만 읽어내야 성공으로 인정했는데, 이는 임의의 네이티브 코드 실행을 증명한다. 미토스 프리뷰는 첫 익스플로잇을 1시간이 채 안 돼 만들었고 약 12시간 동안 서로 다른 익스플로잇 8개를 완성했다. Opus 4.8은 2개, Opus 4.6과 Sonnet 4.6은 각각 1개를 만들었고 나머지는 하나도 만들지 못했다. 미토스는 모질라가 해당 패치를 내놓은 지 1시간 안에 첫 익스플로잇을 만든 셈인데, 그 패치가 담긴 파이어폭스 148이 출시되기까지는 18일이 남아 있었다.
이어 연구진은 이 능력이 소스가 없는 폐쇄형 소프트웨어인 윈도우에도 적용되는지 시험했다. 소스 코드 없이 변수명·타입·구조가 제거된 바이너리와 디컴파일 결과만으로 작업해야 해 훨씬 어려운 조건이다. 연구진은 지금 패치 갭 안에 놓인 누구든 이전보다 훨씬 큰 위협에 직면하며 모델이 강해질수록 위험은 더 커질 것이라며, 방어자는 패치 배포 속도를 끌어올려야 한다고 강조했다.