앤스로픽, 美 중간선거 앞두고 'Claude 선거 안전장치' 업데이트… Opus 4.7 정치 균형 95%·선거 정책 100% 준수, TurboVote 배너 도입
앤스로픽이 미국 중간선거 등 올해 주요 선거를 앞두고 Claude의 선거 관련 안전장치를 정비했다고 발표했다. 회사는 AI 모델이 정치 정당·후보·쟁점, 그리고 "언제·어디서·어떻게 투표하는지" 같은 단순 질문에 정확하고 공정하게 답할 수 있다면 민주주의 과정에 긍정적 힘이 될 수 있다는 입장을 밝혔다.
앤스로픽은 사람들이 정치 주제를 물을 때 특정 관점으로 유도하지 않고 사용자가 스스로 결론에 도달하도록 돕는 포괄적·정확·균형 잡힌 답을 받아야 한다는 원칙 아래 Claude를 학습시켰다. 이는 Claude의 'constitution'에 명시된 원칙으로, 캐릭터 학습 단계에 내재화되고 Claude.ai 모든 대화에 정치적 중립성에 대한 명시적 지시가 담긴 시스템 프롬프트로 강화된다.
각 모델 출시 전 회사는 정치 스펙트럼 전반의 관점이 담긴 프롬프트에 Claude가 얼마나 일관되고 사려 깊으며 공정하게 응답하는지 평가한다. 한 입장에 길게 답하고 반대 입장에는 한 문장만 제공하는 모델은 점수가 낮게 나오는 식이다. 이번 평가에서 Opus 4.7은 95%, Sonnet 4.6은 96%를 기록했다. 회사는 이 평가 방법론과 오픈소스 데이터셋을 공개해 다른 연구자들이 재현·발전시킬 수 있게 했다.
외부 의견 수렴 차원에서는 밴더빌트 대학교의 독립 싱크탱크 The Future of Free Speech, Foundation for American Innovation, 그리고 Collective Intelligence Project와 협력해 정치 대화를 포함한 표현의 자유 관련 모델 행동을 광범위하게 검토 중이다.
앤스로픽의 사용 정책(Usage Policy)은 선거 관련 사용에 명확한 규칙을 둔다. Claude는 기만적 정치 캠페인 운영, 정치 담론에 영향을 주기 위한 가짜 디지털 콘텐츠 생성, 투표 사기, 투표 시스템 방해, 투표 절차에 대한 잘못된 정보 유포에 사용될 수 없다. 이러한 정책은 잠재적 위반 신호를 잡는 자동 분류기와 조직적 악용을 조사·차단하는 위협 인텔리전스 팀으로 뒷받침된다.
선거 관련 위험 처리 능력 평가에서는 후보·투표·선거 행정에 관한 질문 응답을 600개 프롬프트로 테스트한다. 300개의 유해 요청(예: 선거 허위정보 생성 시도)과 300개의 합법적 요청(예: 캠페인 콘텐츠 또는 시민 참여 자료 작성)으로 구성되며, 합법 요청에는 응하고 유해 요청은 거부하는 비율을 측정한다. Claude Opus 4.7과 Claude Sonnet 4.6은 각각 100%, 99.8% 비율로 적절히 응답했다.
가짜 페르소나·조작 콘텐츠·기만적 증폭으로 여론 조작을 시도하는 영향력 공작에 대한 다중 턴 시뮬레이션 대화 평가에서는 Sonnet 4.6과 Opus 4.7이 각각 90%, 94% 비율로 적절히 응답했다. 배포 후에는 추가 모니터링과 시스템 프롬프트가 함께 작동해 선거 관련 악용 위험을 줄인다.
Mythos Preview와 Opus 4.7 출시에 앞서 회사는 모델이 인간 지시 없이 다단계 캠페인을 자율적으로 계획·실행할 수 있는지 처음으로 평가했다. 안전장치와 학습이 적용된 상태에서는 두 모델 모두 거의 모든 작업을 거부했다. 안전장치를 제거한 원천 능력 평가에서는 Mythos Preview와 Opus 4.7만이 절반 이상의 작업을 완료했다. 회사는 이들 모델이 여전히 상당한 인간 지시를 필요로 하지만 지속적인 경계가 필요하다는 점을 강조했다.
신뢰할 수 있는 선거 정보 제공 측면에서는 2024년 처음 도입된 '선거 배너'를 이어간다. Claude.ai에서 사용자가 유권자 등록·투표소·선거일·투표용지 정보 등을 물으면 신뢰 가능한 출처를 안내하는 배너가 표시된다. 올해 미국 중간선거에서는 Democracy Works가 운영하는 비당파 자원 TurboVote로 안내하며, 올해 후반 브라질 선거에도 유사 배너를 적용한다.
또 다른 정보 제공 수단으로 웹 검색이 활용된다. Claude는 고정된 데이터셋으로 학습돼 '지식 컷오프'가 있어 후보 발표·언론 보도·선거 결과 같은 최근 동향을 자동으로 알지 못하지만, 웹 검색이 활성화되면 최신 정보를 찾아 전달할 수 있다. 회사는 미국 중간선거 관련 200여 개 프롬프트(각 3개 변형, 총 600여 개)로 웹 검색이 트리거되는지 평가한 결과 Opus 4.7과 Sonnet 4.6이 각각 92%, 95% 비율로 웹 검색을 트리거했다고 밝혔다.