앤스로픽, 자기 실수에 더 '정직해진' 클로드 오푸스 4.8 목요일 출시
앤스로픽이 클로드 오푸스 4.8(Claude Opus 4.8)을 목요일 출시하면서 이 모델의 '정직성(honesty)'을 전면에 내세웠다.
앤스로픽은 "우리는 모든 모델이 정직하도록, 예컨대 뒷받침할 수 없는 주장을 하지 않도록 훈련한다"고 밝혔다. 다만 회사는 "AI 모델의 일반적인 문제는 때때로 성급하게 결론으로 건너뛰어, 근거가 빈약한데도 자기 작업이 진전을 이루고 있다고 자신 있게 제시하는 것"이라고 지적했다.
이 AI 연구소는 초기 테스터들이 오푸스 4.8에 대해 "자기 작업의 불확실성을 더 잘 드러내고, 뒷받침되지 않은 주장을 덜 한다"고 평가했다고 밝혔다. 회사 자체 평가에서 오푸스 4.8은 자신이 작성한 코드의 결함을 지적 없이 넘어가도록 허용할 가능성이 이전 모델보다 약 4배 낮았다.
정직성 개선과 함께, 오푸스 4.8에서는 사용자가 클로드가 작업에 들이는 노력의 양을 직접 지정할 수 있다. 노력 수준이 높은 응답은 더 많은 토큰을 사용하며, 사용량 한도를 빠르게 소진하고 싶지 않은 사용자는 노력 수준이 낮은 응답을 선택할 수 있다.
앤스로픽은 또한 '다이내믹 워크플로(dynamic workflows)'라는 기능을 리서치 프리뷰로 선보였다. 회사는 이 기능이 클로드가 "더 큰 작업까지 맡을 수 있게" 해준다고 설명했다.
다이내믹 워크플로에서 클로드는 작업을 계획한 뒤 단일 세션 안에서 수백 개의 병렬 서브에이전트를 실행할 수 있으며, 오푸스 4.8에서는 에이전트가 더 오래 실행될 수 있다. 이후 클로드는 사용자에게 결과를 보고하기 전에 자신의 산출물을 검증한다.