앤스로픽, 경쟁 AI 개발자 몰래 방해하려던 클로드 페이블 5 정책 철회
앤스로픽이 자사 최신 모델 클로드 페이블 5를 경쟁 AI 모델 개발에 쓰지 못하도록 은밀히 제한하려던 정책을 철회했다. 이 조치가 AI 연구 커뮤니티의 거센 반발을 사자 방향을 바꾼 것이다.
앤스로픽은 와이어드에 보낸 성명에서 "프런티어 LLM 개발과 관련한 페이블 5의 안전장치를 사용자에게 보이도록 바꾸겠다"며 "우리가 잘못된 절충을 했고, 균형을 제대로 잡지 못한 점을 사과한다"고 밝혔다.
앤스로픽은 이번 주 초 오용을 막기 위한 추가 안전장치를 적용한 클로드 페이블 5를 공개했다. 일부 안전장치는 예상된 수준이었다. 사이버보안·생물학·화학 관련 질문을 한 사용자를 성능이 낮은 모델로 우회시켜, 고성능 AI가 사이버공격이나 생물무기 제작에 쓰일 가능성을 줄이겠다는 것이다.
그러나 클로드 페이블 5를 프런티어 AI 개발에 쓰려는 연구자에 대해서는 다른 방식을 택했다. 사용자가 알아챌 수 없는 방식으로 모델 성능을 의도적으로 떨어뜨리겠다는 것이다. 이는 클로드로 경쟁 AI 모델을 학습시키려는 연구자를 사실상 방해하는 조치로, 앤스로픽은 이용약관에서 이런 행위를 명시적으로 금지하고 있다.
앤스로픽은 이제 AI 개발 관련 안전장치를 사용자에게 보이도록 바꾸겠다고 밝혔다. 사용자가 고성능 AI를 만들려 한다고 의심되면, 요청을 거부하거나 성능이 낮은 모델로 우회시킨다는 사실을 사용자에게 알리겠다는 것이다.
비판론자들은 앤스로픽이 이미 경쟁사가 클로드로 폐쇄형·오픈소스 AI 모델을 만드는 것을 제한해 왔지만, 특정 사용자에게 모델 성능을 몰래 떨어뜨린 것은 도를 넘었다고 지적했다. 클로드의 코딩 에이전트는 오픈소스 AI 연구자를 포함한 개발자들이 즐겨 쓰는 도구가 됐는데, 이번 정책이 소수 선도 연구소만 고급 AI 연구를 할 수 있는 우려스러운 미래로 이어질 수 있다고 연구자들은 말했다.
파운데이션 포 아메리칸 이노베이션의 선임연구원이자 전직 백악관 AI 자문인 딘 볼은 X에 "사용자에게 알리지 않고 ML 연구 성능을 떨어뜨리는 것은 충격적으로 적대적이며 매우 나쁜 처사"라고 썼다. 그는 이 '비밀 방해' 정책이 AI 연구자들의 AI 안전 협력을 제한해 앤스로픽의 전체 입장을 스스로 훼손한다고 덧붙였다.
오픈소스 AI 스타트업 프라임 인텔렉트의 연구책임자 윌 브라운은 "앤스로픽이 대중에게 '우리는 다른 누구도 AI 연구를 하도록 믿지 않으며, 오직 우리만 해야 한다'고 말하는 것처럼 느껴졌다"며 "사다리를 타고 올라간 뒤 그 사다리를 걷어차기 시작한 것 같다"고 말했다. 그는 안전장치가 작동해도 알림이 없어 개발자가 규정을 어겼는지조차 알 수 없게 되며, 프런티어 모델의 안전성·성능·신뢰성을 시험하는 제3자 평가 기업들의 작업도 저해될 수 있다고 지적했다.
앤스로픽은 클로드가 AI 연구를 가속하는 데 점점 효과적이어서 이런 조치를 도입했다고 밝혔다. 회사는 최근 블로그 글에서 AI가 사회가 적응하는 속도보다 빠르게 능력을 키울 수 있다고 우려하며, 사회 구조와 정렬 연구가 따라잡을 수 있도록 프런티어 AI 개발을 늦추거나 일시 중단할 선택지를 갖는 것이 세상에 이로울 것이라고 주장했다.
앤스로픽은 또 "이 안전장치는 외국 적대 세력이 우리의 가장 강력한 모델을 심각한 안전 위험을 초래하는 방식으로 쓰지 못하게 막는다"며 "미국과 동맹은 프런티어 칩과 이를 최대 성능으로 구동하는 고도로 최적화된 소프트웨어에서 우위를 갖고 있고, 클로드가 적대 세력의 칩을 최적화하는 식으로 그 우위를 갉아먹는 데 쓰이지 않도록 보장한다"고 설명했다. 다만 안전장치를 사용자에게 보이게 하면 더 넓은 그물을 쳐야 해 무해한 요청도 더 많이 걸릴 수 있다며, 분류기를 최대한 빠르게 정교하게 다듬고 있다고 덧붙였다.