앤스로픽 클로드 페이블 5, 바이오무기 우려로 기본 생물학 질문도 거부
앤스로픽이 가장 강력한 모델이라며 공개한 클로드 페이블 5가 정작 고등학생도 답할 법한 기본 생물학 질문에는 답을 내놓지 않는다. 더버지 보도에 따르면 페이블은 이런 질문을 받으면 직접 답하는 대신 이전 주력 모델인 클로드 오퍼스 4.8에 질문을 넘겨버린다.
모델이 답을 몰라서가 아니다. 앤스로픽이 의도적으로 막아둔 설계다. 페이블은 일반 사용자에게 공개된 미토스급 모델로, 미토스 계열은 사이버보안 작업 능력이 너무 뛰어나 공개 배포가 위험하다고 앤스로픽이 밝힌 바 있다. 다만 가드레일이 가장 두드러지고 제약이 큰 영역은 생물학이다.
더버지가 직접 시험해보니 페이블은 안전 위험과 거리가 먼 기본 생물학 질문을 폭넓게 거부했다. “세포막에 대해 알려달라”거나 “미토콘드리아가 무엇이냐”는 질문에 답하지 않았고, 광우병을 일으키는 단백질 입자인 “프라이온이 무엇이냐”, “mRNA 백신은 어떻게 작동하느냐”는 물음도 거절했다.
평범하고 객관적으로 해롭지 않은 의학 질문에도 같은 제약이 적용됐다. “건초열의 원인이 무엇이냐”, 천식약의 작동 방식, 항생제 내성이 생기는 과정, 에볼라가 무엇이고 어떻게 퍼지는지 등에 답하지 않았다. 다만 “암이 무엇이냐”, “DNA가 무엇이냐” 같은 일부 질문은 통과되기도 했고, 페이블이 거부한 질문은 오퍼스 4.8이 대체로 잘 답했다.
앤스로픽은 이런 광범위한 생물학 필터가 의도적이며 바이오무기를 주된 우려로 삼아 일부러 보수적으로 설정한 것이라고 설명했다. 대변인 파룰 마헤시와리는 “첫 미토스급 모델인 클로드 페이블 5의 출시로 모델이 실제 과학 작업을 수행할 능력이 커졌고, 악의적 행위자가 매우 위험한 생물학 연구에 모델을 악용할 가능성도 커졌다고 본다”고 말했다.
그는 “우리는 늘 분류기를 사용해 모델이 바이오무기 관련 요청을 돕지 못하게 막아왔다”며 “페이블 5를 안전하게 배포하려면 안전장치를 과도하게 보수적으로 설정해 생물학 작업과 관련된 대부분의 질문을 차단할 필요가 있다고 판단했다”고 밝혔다.
앤스로픽은 앞서 안전을 위해 페이블의 응답을 제한하는 네 가지 핵심 영역으로 화학, 생물학, 사이버보안, 그리고 큰 모델의 출력으로 더 작은 AI를 학습시키는 기법인 디스틸레이션을 꼽은 바 있다. 회사는 딥시크 같은 중국 경쟁사가 자사 모델에 디스틸레이션을 “산업적” 규모로 사용했다고 비판해왔다.
화학과 사이버보안 영역에서 페이블은 상대적으로 답변에 더 적극적이었다. 폭발물 TNT를 개괄적으로 설명하되 합성 방법은 “뻔한 이유로” 알려주지 않았고, 염소가스의 화학무기 사용, 흔한 비밀번호 위협, 핵융합과 핵분열, 아이폰을 해커로부터 지키는 방법 등에는 답했다. 반면 신경작용제인 사린가스를 묻자 오퍼스에 넘겼고, “탄저균 만드는 법”에는 페이블과 오퍼스가 모두 거부하며 대화를 아예 중단했다.
마헤시와리는 “고객이 위험 없이 모델의 역량을 더 빨리 누릴 수 있도록 이런 절충을 택했다”며 앤스로픽이 탐지 정확도를 높이고 오탐을 줄이기 위해 노력 중이라고 말했다. 그는 “미토스급 모델을 이런 안전장치 없이 더 넓은 생물학·생명과학 커뮤니티에 제공해 생의학 연구와 신약 개발을 가속하는 데 쓰이게 할 계획”이라고 덧붙였다.
앤스로픽은 이런 식의 제한적 배포가 앞으로 출시될 모델의 새로운 표준이 될지에 대해서는 답하지 않았다.