구글 AI 오버뷰, 'Google' 철자조차 못 맞춘다… LLM 토크나이저 한계 노출
테크크런치 보도에 따르면 구글이 검색에 도입한 AI 오버뷰가 'Google'이라는 단어 안의 'P' 개수를 물었을 때 두 개라고 답했다. 같은 기능은 'poop'에 'r'이 정확히 1개 있다고 했고, 'journalism'에 'd'가 두 개 있다며 'j-o-u-r-n-a-d-i-s-m'으로 표기했다. 미국 대통령의 성에 'P'가 한 개 있다는 답은 맞췄지만 't-r-p-u-m'이라고 적었다.
구글이 검색에 AI 오버뷰를 처음 도입했을 당시에도 풍자 매체 디 어니언(The Onion)과 레딧 게시물을 그대로 인용해 '돌을 먹어라', '피자에 풀을 발라라' 같은 답을 내놓은 전력이 있다. 29년 된 검색 제품을 생성형 AI로 재편하는 과정에서 비슷한 실수가 반복되고 있는 셈이다.
구글은 테크크런치에 보낸 이메일 성명에서 "단어 안의 글자 수를 세는 작업은 LLM의 알려진 난제이며, 우리는 이 특정 문제를 고치기 위해 작업하고 있다"고 밝혔다.
지난주에는 'disregard'를 검색하면 사전 정의처럼 보이는 결과가 노출됐는데, 정의 내용이 "알겠습니다. 새로운 프롬프트나 질문이 있으면 알려주세요"라는 챗봇 응답이었다. 이 문제는 이미 패치됐다고 테크크런치는 전했다.
챗봇과 텍스트 생성기를 떠받치는 LLM은 애초에 철자를 이해하도록 설계되지 않았다. 새 AI 모델이 공개될 때마다 'strawberry'에 'r'이 몇 개인지 물어보라는 농담이 수년째 도는 것도 이 때문이다. 수 초 만에 앱 코드를 짜거나 수학자들도 풀지 못한 문제를 풀어내는 모델들이 철자에서는 유치원생 수준의 성적을 낸다.
AI는 문장을 단어와 글자의 집합으로 인식하지 않는다. 다수의 LLM이 기반으로 삼는 트랜스포머 모델은 텍스트를 '토큰' 단위로 쪼개는데, 토큰은 모델에 따라 단어 전체일 수도 있고 음절이나 글자일 수도 있다. AI는 텍스트를 수치 표현으로 변환한 뒤 맥락을 부여해 응답을 만들어낸다.
앨버타대학교 AI 연구자이자 조교수인 매튜 구즈디얼(Matthew Guzdial)은 테크크런치에 "LLM은 트랜스포머 아키텍처에 기반하는데, 사실 텍스트를 읽는 것이 아니다. 프롬프트를 넣으면 인코딩으로 번역된다"며 "모델이 'the'라는 단어를 볼 때 'the'가 무엇을 의미하는지에 대한 인코딩 하나를 가질 뿐, 'T·H·E'라는 글자에 대해서는 알지 못한다"고 설명했다.
노스이스턴대학교에서 대형 언어 모델 해석 가능성을 연구하는 박사과정 셰리던 포이크트(Sheridan Feucht)는 "언어 모델에 '단어'가 정확히 무엇이어야 하는지는 빠져나가기 어려운 문제이며, 인간 전문가가 완벽한 토큰 어휘에 합의한다 해도 모델은 거기서 더 잘게 청크를 만드는 편이 유리하다고 판단할 것"이라며 "이런 모호함 때문에 완벽한 토크나이저란 존재하지 않을 것"이라고 진단했다.
연구자들은 이 문제를 시급한 과제로 보지 않는다. LLM의 효용이 철자 맞히기에 있지 않기 때문이다. 그러나 이런 노골적인 실패는 AI 출력을 정확성 확인 없이 무비판적으로 신뢰해서는 안 된다는 점을 다시 한 번 일깨운다.