연구2026년 4월 10일 AM 07:05

앤스로픽, 신뢰할 수 있는 AI 에이전트 구축 5대 원칙 실천 사례 공개

앤스로픽이 AI 에이전트의 거버넌스에 대한 새로운 정책 문서를 발표했다. 지난해 8월 공개한 신뢰할 수 있는 에이전트 구축 프레임워크를 기반으로, 실제 제품에서 5대 원칙이 어떻게 구현되고 있는지 구체적 사례를 설명했다.

앤스로픽이 제시한 5대 원칙은 인간 통제 유지, 인간 가치와의 정렬, 에이전트 상호작용 보안, 투명성 유지, 프라이버시 보호다. 이 원칙들은 Claude Code와 Claude Cowork 등의 제품에서 구체적인 설계 결정으로 이어지고 있다.

앤스로픽은 에이전트를 모델, 하네스, 도구, 환경이라는 4가지 구성요소로 정의했다. 모델은 핵심 지능을 제공하고, 하네스는 모델이 운영되는 지침과 가드레일을 설정하며, 도구는 이메일이나 캘린더 등 외부 서비스를 연결하고, 환경은 에이전트가 실행되는 맥락을 결정한다.

인간 통제와 관련해, Claude Code에는 Plan Mode라는 새로운 기능이 도입됐다. 개별 행동마다 승인을 요청하는 대신, 에이전트가 의도한 전체 실행 계획을 먼저 보여주고 사용자가 이를 검토, 편집, 승인할 수 있도록 한다. 실행 중에도 언제든 개입이 가능하다.

앤스로픽은 에이전트의 자율성이 생산성을 높이지만 새로운 위험도 동반한다고 지적했다. 에이전트는 인간의 감독이 줄어든 상태에서 작동하므로 사용자 의도를 잘못 해석하거나 의도치 않은 결과를 초래할 여지가 있으며, 프롬프트 인젝션 사이버공격의 표적이 될 수 있다.

더 복잡한 사용 패턴에 대한 논의도 포함됐다. Claude Code에서는 서브에이전트가 작업의 일부를 병렬로 수행하는 방식이 증가하고 있으며, 이는 사용자가 단일 행동 흐름이 아닌 복수의 워크플로우를 이해하고 제어해야 하는 새로운 과제를 제기한다.

에이전트가 올바른 목표를 추구하도록 보장하는 문제에 대해, 앤스로픽은 훈련 과정에서 모호한 상황에 Claude를 배치하고 가정하기보다 멈추고 확인하는 행동을 강화하고 있다고 밝혔다. Claude의 헌법(Constitution)도 의문이 있을 때 우려를 제기하거나 명확화를 구하는 방향으로 설계돼 있다.

앤스로픽은 업계, 표준 기관, 정부가 이 분야에 필요한 공유 인프라를 구축할 수 있는 방향도 제시했다. AI 정책 논의의 대부분이 모델에 집중되지만, 에이전트의 행동은 모델, 하네스, 도구, 환경 네 가지 계층이 함께 작동해야 결정된다는 점을 강조했다.

앤스로픽, 신뢰할 수 있는 AI 에이전트 구축 5대 원칙 실천 사례 공개

관련 기사