제품2026년 4월 8일 AM 02:35

구글 AI 오버뷰, 정확도 91%에도 시간당 수백만 건 오답 생성… NYT·Oumi 공동 분석

뉴욕타임스가 AI 스타트업 Oumi와 공동으로 구글 AI 오버뷰의 정확도를 분석한 결과, 10건 중 1건이 오답인 것으로 나타났다. 구글 검색의 방대한 트래픽을 고려하면 하루에 수천만 건의 잘못된 답변이 생성되고 있는 셈이다.

AI 오버뷰는 2024년 출시된 구글의 Gemini 기반 검색 기능으로, 검색 결과 페이지 상단에 AI가 생성한 답변을 표시한다. 출시 초기부터 부정확한 답변으로 사용자 불만을 샀으나, 점차 개선되고 있다.

이번 분석에는 OpenAI가 2024년 공개한 SimpleQA 평가가 사용됐다. SimpleQA는 검증 가능한 답이 있는 4,000개 이상의 질문으로 구성되어 있으며, 생성형 AI 모델의 사실 정확도를 측정하는 표준 벤치마크다.

Oumi가 작년 Gemini 2.5 기반으로 처음 테스트를 실시했을 때 정확도는 85%였다. 이후 Gemini 3 업데이트 후 재테스트한 결과, 정확도가 91%로 상승했다.

그러나 91%라는 수치는 10건 중 약 1건이 여전히 틀린다는 의미다. 구글의 방대한 검색 트래픽에 대입하면, AI 오버뷰는 매일 수천만 건의 부정확한 답변을 생성하고 있으며, 매분 수십만 건의 오답이 쏟아지고 있다.

보고서에는 구체적인 오류 사례도 포함됐다. 밥 말리의 옛 자택이 박물관으로 전환된 날짜를 묻는 질문에서 AI 오버뷰는 세 개의 출처를 인용했으나, 두 출처는 해당 날짜를 다루지 않았고, 위키피디아에 나온 두 개의 상충하는 연도 중 잘못된 것을 선택했다.

또 다른 사례에서는 첼리스트 요요 마가 클래식 음악 명예의 전당에 헌액된 날짜를 묻자, AI 오버뷰가 해당 기관의 웹사이트를 출처로 인용하면서도 클래식 음악 명예의 전당은 존재하지 않는다고 답변했다.