GitHub Trending 'VectifyAI/PageIndex' 누적 29,133 스타·오늘 953개… 벡터DB 없는 트리 인덱스 RAG, FinanceBench 98.7% 정확도, OpenAI Agents SDK 데모 공개
벡터DB 없이 LLM 추론으로 검색하는 RAG 시스템 PageIndex가 GitHub Trending에 올랐다. 누적 29,133 스타·오늘 953 스타를 기록 중이며, 긴 전문 문서를 '목차' 형태의 계층 트리로 인덱싱하고 LLM이 트리 탐색으로 관련 섹션을 찾는 방식이다.
VectifyAI는 전통적인 vector-based RAG가 의미 유사도(similarity)에 의존하지만 검색에 정작 필요한 것은 관련성(relevance)이며, 관련성에는 추론이 필요하다고 지적한다. 도메인 전문 지식과 다단계 추론이 요구되는 전문 문서에서는 유사도 검색이 한계를 보인다는 것이다.
AlphaGo에서 영감을 받은 PageIndex의 동작은 두 단계다. 먼저 문서로부터 'Table-of-Contents' 트리 인덱스를 생성하고, 이후 트리 탐색 기반의 추론 검색을 수행한다. 인간 전문가가 복잡한 문서에서 지식을 추출하는 방식을 시뮬레이션한다고 설명한다.
전통적 RAG와 비교한 차별점은 벡터DB와 청킹(chunking)을 사용하지 않는다는 점이다. 문서를 인위적인 청크가 아닌 자연스러운 섹션 단위로 구성하고, 페이지·섹션 참조를 포함한 추적 가능하고 해석 가능한 추론으로 검색한다.
성과 면에서는 PageIndex 기반 RAG 시스템 'Mafin 2.5'가 FinanceBench 벤치마크에서 98.7%의 state-of-the-art 정확도를 기록했다. SEC 자료·실적 공시 같은 복잡한 금융 보고서에서 관련 컨텍스트를 정밀하게 추출한다고 회사는 강조한다.
배포 옵션은 세 가지다. 셀프호스트는 이번 오픈소스 저장소로 가능하며 표준 PDF 파싱을 사용한다. 클라우드 서비스는 강화된 OCR·트리 빌딩·검색 파이프라인을 제공해 ChatGPT 스타일 채팅 플랫폼·MCP·API로 연동할 수 있다. 엔터프라이즈는 프라이빗·온프레미스 배포가 가능하다.
오픈소스 저장소에서 직접 실행하려면 pip3로 의존성을 설치하고, .env에 OPENAI_API_KEY를 LiteLLM 호환 형태로 등록한 뒤 run_pageindex.py에 PDF 경로를 넘기면 된다. 기본 모델은 gpt-4o-2024-11-20이고, 목차 검색 페이지(toc-check-pages) 20, 노드당 최대 페이지 10, 노드당 최대 토큰 20,000이 기본값이다. 마크다운 입력은 --md_path 플래그로 지원된다.
OpenAI Agents SDK와 결합한 'Agentic Vectorless RAG' 데모도 함께 공개됐다. examples/agentic_vectorless_rag_demo.py에서 셀프호스트 PageIndex와 OpenAI Agents SDK를 결합한 엔드투엔드 예제를 확인할 수 있고, OCR 없이 페이지 이미지를 직접 다루는 'Vision-based Vectorless RAG' 변형도 제공된다.
활용 대상은 LLM 컨텍스트 한계를 넘는 긴 문서다. 재무 보고서, 규제 신고 자료, 학술 교과서, 법률·기술 매뉴얼 등이 예시로 언급됐다.
관련 기사
GitHub Trending 'bigbodycobain/Shadowbroker' 누적 6,013 스타·오늘 42개… 60개+ 피드 통합 OSINT 플랫폼, HMAC 서명 에이전틱 커맨드 채널·Claude·GPT·LangChain·OpenClaw 지원, 35개+ 데이터 레이어·11,000개+ CCTV·25,000척+ AIS
애플 ML 리서치, MoE 캐싱 벤치마크 'SpecMD'·신규 정책 'Least-Stale' 공개… OLMoE서 VRAM 5%(0.6GB)로 88%+ 히트율·TTFT 최대 34.7% 단축, LRU 대비 충돌 미스 최대 85× 감소
애플 ML 리서치, 'iTARFlow' 공개… Normalizing Flow에 iterative denoising 결합, ImageNet 64·128·256 픽셀 경쟁력·코드 공개