제품2026년 6월 4일 PM 11:36

어떤 LLM에도 붙이는 로컬 우선 AI 메모리 레이어 '메모' 깃허브서 주목

맞춤형 파이프라인으로 만든 LLM 앱은 세션이 끝나면 기억이 사라진다는 한계가 있다. 이 문제를 겨냥한 로컬 우선 메모리 레이어 '메모(mnemo)'가 해커뉴스 쇼 HN에 공개돼 주목받고 있다. 메모는 사용자가 넣는 대화를 지켜보다 개체와 관계를 뽑아 지속적인 지식 그래프를 만들고, 관련 맥락을 점수화해 이후 프롬프트에 자동으로 끼워 넣는 사이드카 서비스다. 클라우드도, 파이썬 런타임도, 특정 업체 종속도 필요 없다.

작동 방식은 두 개의 핵심 엔드포인트로 나뉜다. 대화 한 토막이나 문서, 메모 같은 원문을 /ingest로 보내면 메모가 설정된 LLM에 넘겨 인물·도구·장소·개념 같은 개체와 그 사이의 관계를 추출한다. 개체는 이름과 유형으로 중복이 제거되고 별칭이 병합돼 SQLite에 기록되며, 인메모리 그래프는 원자적으로 갱신된다.

맥락을 꺼낼 때는 /retrieve가 6단계 파이프라인을 돌린다. 전문 검색으로 청크를 찾고, 개체 이름을 검색한 뒤, 지식 그래프를 너비 우선으로 확장하고, 관계로 거르고, 점수를 매겨 순위를 정한 다음, 주입용 맥락 문자열을 조립한다. 이 과정은 50밀리초 안에 끝난다고 개발자는 밝혔다.

백엔드는 완전히 로컬에서 무료로 돌릴 수 있는 올라마를 비롯해 OpenAI, 앤스로픽, OpenAI 호환 API라면 무엇이든 연결된다. 메모는 클라우드 의존성이 전혀 없는 단일 정적 바이너리로 배포되며 러스트로 작성됐다.

메모가 내세우는 차별점은 그래프 레이어다. 개체는 여러 세션에 걸쳐 중복이 제거되고, 관계에는 가중치가 매겨져 질의 시점에 여러 단계를 거쳐 순회된다. 그래프를 타고 확장된 결과는 점수에 0.5배가 적용돼, 직접 일치한 결과가 추론으로 끌어온 결과보다 항상 위에 오도록 했다.

개발자는 기존 AI 메모리 도구 다수가 파이썬 데몬으로 돌며 인메모리나 클라우드에 의존하는 반면, 메모는 단일 러스트 바이너리와 SQLite를 써서 재시작 후에도 기억이 남고, 그래프 다중 홉 탐색을 지원하며, OpenAI 호환 모델이라면 어떤 것에도 묶이지 않는다는 점을 강점으로 든다. 단순히 맥락을 통째로 쏟아붓는 대신 점수와 순위를 매겨 그래프로 확장한 결과를 돌려준다는 것이다.

구성은 네 개의 러스트 크레이트로 이뤄진다. 추출·그래프 연산·검색 엔진·DB 계층을 담은 mnemo-core, 그 위에 얇게 얹은 Axum 기반 REST API인 mnemo-api, API를 호출하는 명령줄 도구 mnemo-cli, 성능 벤치마크용 mnemo-bench다. 파이썬 SDK와 CLI도 함께 제공된다.

성능은 애플 M2에서 디버그 빌드 기준으로 전체 검색 파이프라인이 평균 4.2밀리초, 초당 약 238회를 처리했고 개체 삽입은 약 0.12밀리초였다. 릴리스 빌드는 3~5배 빠르다고 한다. 저장소에는 122개의 러스트 테스트와 12종의 벤치마크가 포함돼 있다. 메모는 메모리를 알아서 처리하는 관리형 에이전트 환경을 쓰는 사용자에게는 불필요하며, 완전히 통제 가능한 지속적·구조화된 로컬 메모리가 필요한 맞춤 LLM 파이프라인 개발자를 겨냥한다.

어떤 LLM에도 붙이는 로컬 우선 AI 메모리 레이어 '메모' 깃허브서 주목

관련 기사