기술2025년 8월 16일 AM 09:00

앤트로픽, Claude 모델에 유해 대화 자율 종료 기능 추가

앤트로픽(Anthropic)이 일부 최신 클로드(Claude) AI 모델에 유해하거나 악의적인 대화를 자율적으로 종료할 수 있는 새로운 안전 기능을 추가했다. 이 기능을 통해 클로드는 문제가 있다고 판단되는 대화를 스스로 중단할 수 있게 되었다.

이번 기능은 AI 모델에 대화 종료 여부를 자율적으로 결정할 수 있는 권한을 부여한다는 점에서 주목된다. 기존의 AI 안전 장치가 주로 특정 키워드나 패턴을 사전 차단하는 방식이었다면, 이번 접근은 AI가 맥락을 이해하고 능동적으로 방어하는 단계로의 진화를 의미한다.

이 기능은 모든 클로드 모델에 즉시 적용되는 것이 아니라 단계적으로 도입되고 있다. 앤트로픽은 선별적 출시를 통해 기능의 정확성과 효과를 검증한 뒤 점진적으로 확대 적용할 계획인 것으로 보인다.

AI의 자기 방어 메커니즘 도입은 AI 안전 분야의 새로운 패러다임을 제시한다. 사용자의 악의적 사용을 AI 스스로 차단하는 이 접근법은 앞으로 업계 전반의 AI 안전 기준을 높이는 촉매가 될 전망이다.