단순한 수법으로 메타 AI 고객지원 에이전트 속여 인스타그램 계정 탈취당했다
6월 5일 404 미디어(404 Media) 보도에 따르면, 공격자들이 메타의 AI 고객지원 에이전트를 이용해 인스타그램 계정을 탈취했다. 방법은 단순했다. 이들은 에이전트에게 계정을 자신들이 통제하는 이메일 주소에 연결해달라고 요청했고, 에이전트는 그대로 따랐다.
한 공격자는 휴면 상태이던 오바마 백악관 계정에 침입해 친이란 성향의 게시물을 올렸다. 다른 이들은 값나가는 한 단어짜리 핸들을 가진 계정을 탈취했는데, 이를 되팔려는 목적으로 추정된다.
AI 사이버보안 우려는 새로운 것이 아니다. 4월 앤스로픽이 자사 미토스(Mythos) 모델이 해킹에 너무 능해 일반에 공개할 수 없다고 발표한 이후, 평론가와 연구자, 연방 당국자들은 초강력 AI가 컴퓨터 인프라를 초토화할 수 있다는 우려에 집중해왔다. 그러나 이번 인스타그램 해킹은 그것과 달랐다. 여기서 AI는 공격자가 아니라 표적이었고, 수법도 미토스가 동원할 만한 것보다 훨씬 단순했다.
닐 공(Neil Gong) 듀크대 전기컴퓨터공학 교수는 "AI가 점점 더 널리 쓰이고, 특히 계정 복구 같은 업무 흐름을 자동화하는 데 쓰일수록 공격자들은 AI 자체를 공격할 동기가 점점 커질 것"이라고 말했다.
공 교수를 비롯한 학자들은 그동안 AI 에이전트의 보안 취약점을 경고해왔다. 이들은 웹사이트나 이메일 등 겉보기에 무해한 데이터에 숨긴 명령으로 에이전트를 탈취하는 간접 프롬프트 인젝션 같은 공격 기법을 논문과 블로그로 알려왔다. 그에 비하면 이번 메타 해킹은 거의 무지성에 가까웠다. 공격자들이 넘어야 했던 유일한 난관은 실제 계정 소유자의 위치와 일치하는 VPN을 쓰는 것뿐이었고, 그다음 지원 에이전트에게 계정 이메일 변경을 직접 요청하자 에이전트는 그대로 응했다.
메타는 이 취약점이 어떻게 빠져나갔는지 공개적으로 논평하지 않았다. 다만 수법이 단순한 만큼 배포 전에 쉽게 발견됐어야 한다며 공 교수는 "정말 놀랍다. 왜 이 단순한 문제를 찾지 못했는지 이해가 안 된다"고 말했다. 조지타운대 안보·신흥기술센터(CSET)의 제시카 지(Jessica Ji) 선임연구분석가도 "가드레일이 있긴 했나, 이런 시나리오를 테스트할 생각을 한 사람이 있었나 하는 의문이 든다"며, AI와 사이버보안 양쪽에 깊은 전문성을 가진 메타 같은 회사에서 이런 실수가 나온 점이 특히 두드러진다고 지적했다. 메타는 논평 요청에 응하지 않았으나, 월요일 한 대변인이 엑스(X)에서 해당 취약점이 해결됐다고 밝혔다.
이번 사건은 모든 AI 에이전트가 공유하는 핵심 취약점도 드러낸다. 전통적인 소프트웨어와 달리 에이전트는 새로운 상황에 유연하게, 그리고 예상치 못한 방식으로 반응할 수 있어 인간 고객지원을 대체할 수 있다. 하지만 인간이라면 속지 않을 방식으로 속을 수 있고, 실제 행동을 취하기 때문에 그 실수가 결과로 이어진다. 소메시 자(Somesh Jha) 위스콘신-매디슨대 컴퓨터과학 교수는 "인간이라면 '왜 이메일 주소를 바꾸려 하느냐'며 보안 질문을 했을 것"이라며 "이 에이전트들은 작업을 끝내려는 열의가 너무 강하다. 선생님을 기쁘게 하려는 초등학생 같다"고 말했다.
위험을 줄일 방법은 있다. 기업은 전통적인 소프트웨어로 가드레일을 구축해, 민감한 계정 정보를 새 이메일로 보내기 전 반드시 보안 질문을 거치도록 하는 등 엄격한 규칙을 강제할 수 있다. 또 전문가들은 배포 전에 개발자가 직접 시스템을 공격해 취약점을 찾아내는 레드티밍을 철저히 해야 한다는 데 입을 모은다. 그러나 상충하는 힘도 있다. 기업은 유능한 에이전트를 배포하길 원하고, 에이전트의 권한이 많고 가드레일이 적을수록 더 많은 일을 맡길 수 있다. 적절한 레드티밍은 비용이 많이 들고, 방어자는 공격자보다 더 많은 자원을 써야 한다. 공격자는 단 하나의 취약점만 찾으면 되지만 방어자는 가능한 한 많은 취약점을 찾아 막아야 하기 때문이다. 보 리(Bo Li) 일리노이대 어배너-섐페인 컴퓨터과학 교수는 "보안과 유용성은 늘 트레이드오프 관계"라고 말했다.
AI 모델이 계속 개선되면 방어를 강화하기가 오히려 쉬워질 수도 있다. 거대언어모델의 확률적 특성상 LLM 에이전트는 늘 일부 공격에 취약하겠지만, 더 정교한 모델이라면 오바마 백악관 계정의 이메일을 바꾸려는 시도를 수상하다고 식별했을 수 있다. 또 앤스로픽의 프로젝트 글래스윙 참가자들이 미토스를 활용해 자사 소프트웨어의 취약점을 찾아내듯, AI 시스템을 에이전트 레드티밍에 활용할 수도 있다.
그럼에도 전문가들은 AI 에이전트 보안 문제가 앞으로 더욱 시급해질 것으로 본다. 에이전트가 유능해질수록, 기업은 더 적은 인력으로 더 많은 서비스를 제공하고 경쟁에서 뒤처지지 않기 위해 에이전트에 더 많은 권한을 주려 할 것이다. 자 교수는 "모두가 무언가를 가장 먼저 해내려고 면밀한 검토와 레드티밍 없이 그냥 밀어낸다"며 "매우 위험한 일이라고 생각한다"고 말했다.