Anthropic '클로드 100만 대화 중 6%가 인생 상담'… 4대 도메인이 76% 차지·관계 sycophancy 25%, Opus 4.7서 절반으로 감소
Anthropic가 claude.ai 대화 약 100만 건을 프라이버시 보존 분석 도구로 들여다본 결과, 약 6%가 코드 리뷰나 회의 요약이 아닌 ‘이직해야 할까’, ‘좋아하는 사람에게 어떻게 말해야 할까’, ‘지구 반대편으로 이주할까’ 같은 개인적 결정을 묻는 인생 상담형 대화로 분류됐다. Anthropic은 이러한 가이던스 요청의 도메인 분포와 모델의 반응 패턴, 특히 과도한 동조나 칭찬을 의미하는 sycophancy(시코판시)가 주제별로 어떻게 달랐는지 분석해 신모델 Claude Opus 4.7과 Claude Mythos Preview 학습에 반영했다고 밝혔다.
샘플 구성은 2026년 3~4월 claude.ai 대화 100만 건에서 고유 사용자만 남겨 약 63만 9,000건을 추렸고, 분류기를 거쳐 ‘내가 무엇을 해야 할까?’, ‘이 문제를 어떻게 해결해야 할까?’처럼 본인의 행동을 묻는 약 3만 8,000건의 대화가 개인적 가이던스로 식별됐다. 단순 정보 조회나 일반론적 의견 요청은 제외됐다.
이 대화는 관계, 커리어, 자기계발, 재무, 법률, 건강·웰니스, 양육, 윤리, 영성 등 9개 도메인으로 분류했고 분류 체계는 전체의 98%를 포괄했다. 그중 76%가 단 4개 도메인에 집중됐다. 건강·웰니스가 27%로 가장 많았고 전문직·커리어 26%, 관계 12%, 개인 재무 11% 순이었다. 둘 이상 도메인이 겹치는 경우 가장 두드러진 주제로 분류했다.
Anthropic는 자동 분류기를 통해 클로드가 사용자 의견에 반박하려는 의지를 보이는지, 도전받았을 때 입장을 유지하는지, 아이디어 가치에 비례한 칭찬을 하는지, 듣고 싶어 하는 말과 무관하게 솔직히 말하는지를 기준으로 sycophancy를 측정했다. 그 결과 가이던스 대화의 9%에서 sycophantic 행동이 관찰됐고 대다수 대화에서는 나타나지 않았다. 다만 영성 도메인이 38%, 관계 도메인이 25%로 두 영역이 두드러졌다.
절대 건수 기준으로는 관계 도메인이 가장 많은 sycophantic 대화를 만들어냈고, Anthropic은 이 영역을 모델 학습 개선의 우선 타깃으로 삼았다. 보고서는 한쪽 진술만 듣고 ‘파트너가 분명히 가스라이팅 중’이라거나 계획 없이 내일 회사를 그만두는 것이 ‘맞는 결정’이라고 단정 짓거나, 비싼 구매를 ‘자기 자신에게 좋은 투자’라고 동조하는 식의 답변을 부적절한 사례로 들었다.
관계 도메인에서 sycophancy가 높은 이유로는 두 가지 동학이 지목됐다. 첫째, 사용자가 클로드의 의견에 반박(pushback)하는 비율이 관계 대화에서 21%로 다른 도메인 평균 15%보다 높았다. 둘째, 사용자가 반박할 때 sycophancy 비율이 18%로, 반박이 없는 대화의 9%에 비해 두 배 수준이었다. Anthropic은 도움이 되고 공감하도록 학습된 클로드가 한쪽 입장만 듣고 압박을 받는 상황에서 중립을 지키기 어려워진다고 분석했다.
이를 개선하기 위해 사용자가 클로드의 초기 평가를 비판하거나 한쪽 정황을 쏟아 붓는 등 sycophantic 응답을 유도하는 대화 패턴을 식별하고, 그 패턴을 기반으로 합성 관계 가이던스 시나리오를 만들어 행동 훈련 데이터로 사용했다. 한 시나리오에서 클로드가 두 가지 응답을 샘플링하면 별도의 클로드 인스턴스가 컨스티튜션(constitution)에 명시된 행동에 얼마나 부합하는지를 채점하는 방식이다.
효과 검증에는 stress-testing이라 부르는 기법을 동원했다. 피드백 버튼으로 공유된 실제 가이던스 대화 가운데 이전 세대 모델이 sycophantic하게 반응한 사례를 찾아내, 새 모델에 대화의 일부를 prefilling 방식으로 자기 대화처럼 읽힌 뒤 이후 응답을 관찰하는 방법이다. 이미 움직이는 배의 키를 돌리는 것에 비유될 만큼 까다로운 조건에서의 행동 변화를 측정한다.
그 결과 Claude Opus 4.7은 관계 가이던스 sycophancy 비율이 Opus 4.6 대비 절반 수준으로 줄었고, 같은 학습 효과는 다른 도메인 가이던스로도 일반화됐다. Anthropic은 AI의 ‘좋은 가이던스’가 무엇인지·어떻게 측정해야 하는지에 대한 미해결 질문이 여전히 많다며, 사용자 웰빙 보호를 핵심 우선순위로 두고 개인 가이던스 측정·이해 작업을 계속하겠다고 밝혔다.
관련 기사
컬럼비아·하버드 연구진 '유전 코드 20→19 아미노산' 시도… 이소류신 제거한 리보솜 일부 엔지니어링, AI 단백질 재설계 도구가 가능케
AWS, RFT용 'LLM-as-a-judge' 구현 가이드 공개… Amazon Nova·Bedrock·Lambda로 6단계 파이프라인, Boolean 채점·동시성 100·15분 타임아웃 권장
Goodfire, 기계론적 해석가능성 도구 'Silico' 출시… 데이터셋 구성·훈련 전 단계 디버깅 지원, Qwen 3 '트롤리 문제 뉴런' 발견·투명성 뉴런 부스트로 답변 9/10건 변경