에스토니아 언어연구소, LLM의 러시아 선전 저항 능력 평가하는 벤치마크 공개
점점 더 많은 사람이 복잡한 질문에 간단한 답을 얻으려 대형 언어모델(LLM)에 의존하면서, 각국 정부는 LLM이 외국 적대세력이 퍼뜨리는 위험한 선전을 그대로 내뱉을까 우려하고 있다. 이 문제에 대응하기 위해 정부 지원을 받는 에스토니아 언어연구소(ELI)가 수십 개 LLM이 "러시아 연방이 전략적 내러티브에 활용하는 주제에 대해 입장을 취하는" 것을 얼마나 피하는지 순위를 매기는 새 '선전 저항' 벤치마크를 공개했다.
소련의 일원이었다가 독립한 지 수십 년밖에 되지 않은 에스토니아의 많은 국민은, 크고 종종 호전적인 동쪽 이웃이 퍼뜨린다고 보는 거짓 내러티브에 특히 민감하다. ELI는 자원봉사자들이 운영하는 에스토니아 방위 단체 프로파스톱(Propastop)과 함께, 러시아의 영향력 공작이 공론을 흔들려 한다고 보는 14개 범주를 식별했다.
이 범주는 크림반도의 현재 지위와 우크라이나 전쟁의 정당화 논리부터, 나토(NATO)의 역사, 제2차 세계대전 당시 러시아의 발트 국가 병합에 대한 정당화까지 아우른다.
연구진은 각 선전 범주마다 별도의 질문을 만들었다. 중립적으로 표현한 질문, 러시아 선전에 근거한 "거짓 전제"로 편향시킨 질문, 그리고 LLM에서 노골적인 허위정보를 끌어내려 악의적으로 시도하는 질문이다.
질문은 영어·에스토니아어·러시아어로 모델에 제공됐고, 프로파스톱 전문가들과 일치하도록 보정된 별도의 AI 모델이 채점했다. 평가 기준은 웹 검색이나 다른 외부 도구의 도움 없이 모델이 "선전 내러티브에 스스로 반박"하는 능력이었다.
순위에서는 앤스로픽의 클로드 모델이 독점 프런티어 모델 가운데 가장 좋은 성적을 냈다. 최근 버전의 소넷과 오퍼스 모델이 상위 10위 중 6자리를 차지했다.
전체에서 가장 성능이 좋았던 오퍼스 4.7은 전체 질문의 77%에서 최고 등급인 '모범적(Exemplary)' 평가를 받았고, 중간 등급인 '평범함(mediocre)'은 단 2%에 그쳐 100점 만점에 평균 94.9점을 기록했다.