앤스로픽, 종교·철학 학자와 'AI 도덕 형성' 연구 본격화
앤스로픽이 종교·철학·인문 전통의 학자와 성직자, 윤리학자들과 'AI 도덕 형성' 대화 시리즈를 시작했다고 밝혔다. 1차 라운드에서 15개 이상의 종교·문화 그룹과 만났고, 향후 법학자·심리학자·작가·시민단체로 대상을 확대한다는 계획이다.
회사는 정렬·해석성·평가 같은 기술 작업만으로는 AI가 사회에 미치는 영향을 다 다룰 수 없다며, AI가 이미 많은 사람에게 닿고 있는 만큼 외부의 다양한 관점을 함께 받아들여야 한다고 설명했다. 이번 작업은 클로드의 행동과 가치를 규정하는 문서인 클로드 헌법(Claude's constitution)에 반영될 가능성이 거론된다.
첫 대화의 중심 주제는 'AI 모델이 어떻게 좋은 성격을 갖도록 형성될 수 있는가'다. AI 모델은 방대한 인간 글로 학습한 뒤 개발자의 추가 훈련으로 형성되는데, 어떤 패턴을 강화하고 어떤 패턴을 배제할지를 두고 종교·철학·인문 전통이 오랜 시간 쌓아 온 사유를 끌어오겠다는 구상이다.
앤스로픽은 클로드를 특정 한 전통의 세계관에 정렬시키려는 시도가 아니라며, 종교·세속·정치 전반에서 동일한 깊이와 엄밀함으로 자원을 끌어 쓰는 것이 클로드 헌법에 명시된 원칙이라고 강조했다.
신경과학과 인격 형성 교차 영역의 학자들과 진행한 세션에서는 '외부 양심' 역할을 하는 '안전한 타인(safe other)' 개념이 거듭 거론됐다. 가치에 반하는 선택으로 떠밀릴 때 멘토에게 돌아가 점검을 받는 것처럼, 모델에도 유사한 장치를 줄 수 있겠다는 아이디어다.
앤스로픽은 이 발상을 바탕으로, 클로드가 작업 도중 호출하면 자기의 윤리적 약속을 짧게 되돌려 주는 도구를 실험했다. 클로드는 중대한 행동 직전에 이 도구를 자발적으로 호출했고, 자기 이해상충을 스스로 짚어 내는 경우가 잦았다.
이 도구를 클로드의 의사결정 루프에 엮어 넣은 실험에서는 여러 내부 정렬 평가에서 비정렬 행동 비율이 눈에 띄게 낮아진 것으로 나타났다. 효과가 알림 자체에서 오는 것인지, '잠시 멈춰 돌아보는 행위'에서 오는 것인지 분리 분석을 진행 중이며 결과는 추후 별도 공개할 계획이다.
앞으로의 대화는 도덕 형성에서 출발해 AI가 일과 제도, 권력 분배를 어떻게 재편하는지로 확장된다. 회사는 기존에 연결된 그룹과의 관계를 이어 가는 한편, 들은 내용을 자체 연구와 대조한 결과를 단계적으로 공개하겠다고 밝혔다.