와이어드 팩트체커 'AI 검색 답변 60%·챗봇 45% 부정확하다' 직접 분석
와이어드 팩트체크 데스크가 AI 검색과 챗봇의 사실 정확도를 직접 점검한 분석을 와이어드에 공개했다. 미국인 거의 절반이 정보 검색과 아이디어 생성에 AI를 쓴다는 조사를 출발점으로, 매일 팩트체크 현장에서 마주치는 오류율을 정리한 글이다.
필자가 가장 자주 쓰는 AI는 구글 검색의 AI Overviews다. 통계, 사건, 인용 같은 'b-matter'를 구글링할 때 사용하는데, 전문가 판단으로 약 3분의 1은 못 쓸 정도로 틀려 있다고 평가한다.
외부 연구는 더 엄격한 숫자를 내놓는다. 2025년 3월 Tow Center for Digital Journalism 연구는 AI 기반 검색엔진 응답의 60% 이상이 부정확하다고 봤고, BBC 조사는 챗봇 오답률을 45% 수준으로 잡았다. 필자는 이를 합쳐 '사실상 절반쯤 틀린다'고 풀이했다.
모델별 성적도 크게 다르지 않다. 중국과 영국 연구진이 작년에 발표한 팩트체크 벤치마크 RealFactBench에서 Claude가 전 지표 평균 73% 정확도로 1위를 기록했지만 Grok은 평가 대상에서 빠졌다. OpenAI가 2024년 10월 공개한 SimpleQA에서는 4,000개 이상 단답형 질문에 OpenAI와 앤스로픽 어느 모델도 50%를 넘기지 못했다. 올해 구글이 질문을 1,000개로 추려 갱신한 버전에서는 Gemini 2.5 Pro가 55.6%로 가장 높았다.
필자가 ChatGPT에 'LLM이 얼마나 정확하냐'고 묻자 전문 시험 기준 90~96% 정확하고 환각률은 1~2%라는 답이 돌아왔다. 근거로 제시한 링크는 수면의학 자격시험 논문으로 연결됐고, 환각률 출처는 클릭조차 되지 않았다.
모델이 똑똑해진다고 환각이 줄어든다는 보장도 없다. 2025년 미국 인공지능학회(Association for the Advancement of Artificial Intelligence)의 AI 미래 보고서에서 응답한 연구자의 60%가 사실성 문제가 곧 해결될 가능성은 낮다고 답했다.
필자는 옛 팩트체커 입사 시험을 ChatGPT, Claude, Gemini, Grok 무료판에 동일하게 풀려봤다. Grok은 '팩트체크가 뭔지 안다'며 데이터 수집과 편향에 매달렸고 역사적으로 팩트체크가 여성의 일이었다고 짚었다. Claude와 Gemini는 작업 절차와 잠재적 법적 쟁점을 합리적으로 정리했다.
ChatGPT는 자신감 넘치는 어조로 '전문 팩트체커처럼 표시해 주겠다'고 말하더니 원문에 존재하지 않는 문단을 만들어 보여줬다. 다른 문단을 검증해 달라고 부탁하자 절차만 늘어놓고 실제 사실 확인은 끝내 하지 않았다. 4개 모델 모두 계획은 말해도 실행은 멈췄다는 게 필자의 결론이다.
영국 비영리 단체 Full Fact는 자체 AI 도구로 소셜 미디어 게시물과 팟캐스트 전사를 훑어 사람이 검증할 만한 주장을 추려내며, 이 도구는 40개 이상 국가에서 쓰인다. Full Fact 공공정책 책임자 Mark Frankel은 '사람이 반드시 필요하다'고 말했다. 필자는 Poynter 산하 International Fact-Checking Network 책임자 Angie Holan이 170개 이상의 팩트체크 기관을 연결하고 있다는 점을 인용하며, 팩트체커·기자·사서·아카이비스트가 모델 작동 방식을 함께 파고들어야 한다고 정리했다.