목록으로
연구2026년 6월 6일 AM 05:34

구글, 기업 질의 정확도 34% 높인 멀티에이전트 RAG 프레임워크 공개

구글 리서치가 6월 5일 복잡한 기업용 질의에 더 정확하게 답하는 새로운 '에이전틱 RAG(agentic RAG)' 프레임워크를 공개했다. 구글 리서치와 구글 클라우드가 협업한 결과로, 여러 에이전트가 협력해 질문을 잘게 나누고 충분한 근거를 찾을 때까지 반복적으로 검색한 뒤 답변을 생성하는 방식이다.

기존의 단일 단계 검색증강생성(RAG) 시스템은 여러 출처를 넘나드는 다단계(multi-hop) 질문에 맞게 설계되지 않았다. 예를 들어 "프로젝트 X에 쓰인 서버의 사양은 무엇인가?"라고 물으면, 시스템은 프로젝트 X 관련 문서는 찾지만 그 문서에 서버 ID만 적혀 있을 경우 그 ID로 다른 데이터베이스를 한 번 더 검색해야 한다는 것을 알지 못한다. 결국 정보가 여러 데이터 '섬'에 흩어져 있어 부분적인 답이나 "찾을 수 없음"이라는 응답이 나온다.

구글이 이번에 선보인 것은 제미나이 엔터프라이즈 에이전트 플랫폼에서 호스팅되는 '교차 말뭉치 검색(Cross-Corpus Retrieval)' 기능으로, 에이전틱 RAG가 이를 구동한다. 다른 멀티에이전트 RAG 프레임워크와 달리, 정확한 답을 내놓기에 정보가 충분한지를 확인하는 '충분한 맥락(sufficient context)' 판단을 포함한 점이 특징이다. 구글에 따르면 이 프레임워크는 사실성 데이터셋에서 표준 RAG 대비 정확도를 최대 34% 끌어올렸으며, 내부 독점 데이터셋에서도 더 나은 근거 제시와 추론 정확도를 보였다.

핵심은 '지속성(persistence)'이다. 첫 검색이 비었을 때 AI가 추측하거나 곧장 "정보가 부족하다"고 답하는 대신, 정보가 빠졌다는 것을 스스로 인지하고 맥락이 완성될 때까지 계속 검색한다. 때로는 정보가 분명히 존재하는데도 처음에 찾지 못하는 경우가 있기 때문이다.

작동 방식은 하나의 검색엔진이라기보다 조직화된 연구 부서에 가깝다. 루트 에이전트(Root Agent)가 요청을 해석해 하위 에이전트에 작업을 분배하고, 플래너 에이전트(Planner Agent)가 확인이 필요한 영역을 나눈다. 쿼리 리라이터(Query Rewriter)는 긴 요청을 검색하기 쉬운 단순한 질문들로 쪼개고, RAG 에이전트는 이 질문들을 한꺼번에 검색한다.

의료 사례를 예로 들면, 의사가 무릎 수술을 받은 환자 '존 도'의 퇴원 약물과 식이 제한, 입원 중 알레르기 반응 여부를 한 번에 묻는다. RAG 에이전트는 약물과 식이 정보는 찾지만 알레르기 관련 내용은 가장 눈에 띄는 파일에서 찾지 못한다. 기존 RAG라면 여기서 불완전한 답으로 끝났을 것이다.

이때 '충분한 맥락 에이전트(Sufficient Context Agent)'가 품질 검사관처럼 개입한다. 검색된 실제 텍스트 조각과 임시 초안 답변을 함께 검토해, 질문이 요구한 세 가지(약물·식이·알레르기) 중 두 가지만 담겨 있으면 '맥락 부족'으로 표시한다. 단순히 부족하다고 알리는 데 그치지 않고 "약물과 식이는 찾았지만 알레르기는 놓쳤으니 '발진'이나 '이상반응'을 다시 검색하라"는 식으로 무엇이 빠졌는지 구체적인 이유와 피드백을 남긴다.

이 피드백을 받은 쿼리 리라이터가 '발진'에 대한 새 검색을 만들고, RAG 에이전트는 처음에 지나쳤던 파일을 더 깊이 파고들어 빠진 정보를 찾아낸다. 충분한 맥락 에이전트가 약물과 식이, 알레르기를 모두 확보했다고 판단하면 검색을 멈추고, 신서시스 에이전트(Synthesis Agent)가 의사에게 줄 깔끔하고 정확한 요약을 작성한다.

성능 검증에는 FRAMES 논문에 기반한 FramesQA가 쓰였다. 이 데이터셋은 824개의 질의와 2,676개의 PDF 문서로 구성된 말뭉치를 포함한다. 한 예로 "2024년 6월 기준 가장 많이 시청된 두 TV 시즌 피날레 중 어느 쪽이 더 길었고 얼마나 차이가 나는가?"라는 다단계 질문에 대해, 시스템은 해당 작품이 매시(M*A*S*H)와 치어스(Cheers)임을 먼저 찾아낸 뒤 매시 피날레가 150분으로 약 98분인 치어스보다 52분 더 길다고 정확히 답했다.

구글은 이 능력을 대규모로 시험하기 위해 두 가지 설정을 비교했다. 단일 말뭉치(single-corpus) 설정에서는 FramesQA 문서에서만 검색하고, 교차 말뭉치(cross-corpus) 설정에서는 방해가 되는 다른 데이터셋 세 개를 함께 넣어 플래너 에이전트가 어디서 검색할지를 직접 판단하도록 했다. 비교 대상인 '바닐라' RAG에는 고급 검색엔진과 LLM 파서, 리랭커를 갖춘 구글의 RAG 엔진이 사용됐다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사