앤스로픽, 가드레일 적용한 클로드 페이블 5 공개…미토스 5는 파트너 제한 배포
앤스로픽이 화요일 새로운 AI 모델 두 개, 클로드 페이블 5와 클로드 미토스 5를 출시했다. 회사는 두 모델이 지난 4월 일부 기술업계 파트너에게만 제한적으로 공개했던 미토스 프리뷰 모델보다 더 뛰어난 성능을 갖췄다고 밝혔다. 당시 제한 공개는 모델의 능력이 악의적 행위자에게 악용돼 방어자를 무방비 상태로 만들 해킹 도구 개발에 쓰일 수 있다는 우려에서 비롯됐다.
미토스 5는 현재도 일부 산업 파트너에게만 공개되며, 이들 상당수는 미토스 프리뷰에 접근했던 곳들이다. 앤스로픽은 이번 배포와 관련해 미국 정부와 협력하고 있다고 밝혔다.
일반 공개되는 클로드 페이블 5는 미토스 5와 동일한 기반 모델을 사용하지만, 출시 시점부터 '가드레일'이 적용된다. 회사에 따르면 이 장치는 사이버보안·생물학·화학과 관련된 다수의 사용자 질문에 답하지 못하도록 차단하고, 해당 요청을 구형 모델인 클로드 오푸스 4.8로 우회시킨다. 또한 페이블 5를 상대로 디스틸레이션(큰 모델의 응답으로 작은 모델을 학습시키는 것)을 시도한다고 의심되는 요청 역시 클로드 오푸스 4.8로 돌려진다.
앤스로픽 제품관리 총괄 다이앤 펜은 와이어드와의 인터뷰에서, 미토스의 소프트웨어 취약점 발견 능력과 그 밖의 고급 기능을 어떻게 다룰지 4월 출시 이전부터 고심해 왔으며 이후의 테스트와 사용자 의견이 전략을 다듬는 데 도움이 됐다고 말했다.
펜은 "완벽한 해법이 모든 사용 사례에 있지는 않더라도, 우리는 유익한 방식으로 개선하려 한다"며 "여러 접근법 중 이것이 가장 실현 가능하고 최선이라는 결론에 이르렀다. 사용자가 페이블 5에서 최대의 가치를 얻도록 하는 최선의 제품 선택이라고 느꼈다"고 말했다.
펜에 따르면 현재 보호 장치는 신중함에 무게를 둬, 악의가 없는 질문이라도 일부는 성능이 낮은 모델로 우회될 수 있다. 앤스로픽은 시간이 지나면서 분류기를 더 정교하게 만들기를 기대하지만, 펜은 지금으로서는 이것이 모델을 폭넓게 공개할 수 있는 유일하게 안전한 방법이었다고 말했다.
회사는 화요일 미토스 5를 '프로젝트 글래스윙' 파트너뿐 아니라 '일부 생물학 연구자'에게도 제공한다고 밝혔다. 또 블로그 게시물에서 '신뢰 접근 프로그램이 마련되기 전까지' 이들 소규모 고객에게 제한 없는 버전을 제공한다고 언급해, 향후 접근 범위를 더 넓힐 계획을 시사했다. 4월 미토스 출시 이후 앤스로픽은 민간은 물론 오픈 웨이트 진영의 경쟁사들도 결국 미토스 수준의 능력을 갖춘 모델을 내놓을 수밖에 없을 것이라고 거듭 강조해 왔다.
프로젝트 글래스윙은 앤스로픽이 미토스를 산업 파트너에게 처음 공개할 때 꾸린 컨소시엄으로, 더 광범위한 공개에 앞서 회원사들이 자사 시스템을 준비하고 위협에 대한 전 세계적 대응책을 가늠할 시간을 벌어주자는 취지였다. 앤스로픽은 지난주 프로젝트 글래스윙 업데이트에서 "우리는 미토스 수준의 능력을 일반에 안전하게 공개하기 위해 가능한 한 빨리 움직이고 있다"며 "그러려면 모델의 사이버 능력이 오용되지 않도록 막는 매우 견고한 안전장치가 필요한데, 우리를 포함해 우리가 아는 한 모든 AI 개발사가 아직 그런 장치를 개발하지 못했다"고 밝혔다.
앤스로픽은 클로드 페이블 5가 하이쿠·소네트·오푸스처럼 문학 형식에서 이름을 따왔으며, 소프트웨어 엔지니어링과 시각적 이해가 필요한 작업에서 향상된 성능을 제공한다고 설명했다. 다만 그만큼 비용도 오른다. 페이블 5와 미토스 5는 개발자에게 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러로, 앤스로픽의 일반 공개 모델보다 두 배 비싸지만 미토스 프리뷰보다는 저렴하다.
페이블 5의 제한된 공개는 업계가 보안 우려를 해소하기 전에 미토스급 모델을 일반에 내놓으려는 앤스로픽의 사업적 긴장을 드러낸다. 지난 4월 오픈AI도 고급 사이버보안 능력을 갖췄다는 모델을 비공개로 출시하고 프로젝트 글래스윙과 유사한 워킹그룹을 꾸린 바 있다. 두 회사 모두 비공개로 IPO를 신청했으며, 이르면 올해 상장하기 전에 잠재 투자자에게 좋은 인상을 주려 경쟁하고 있다. 한편 앤스로픽은 1,000시간이 넘는 레드팀 테스트에서 이 모델에 대한 보편적 탈옥(유니버설 제일브레이크)을 발견하지 못했다고 밝혔다.