연구2026년 5월 22일 AM 12:07

로컬 LLM의 도구 호출 신뢰성을 끌어올리는 오픈소스 'forge' 공개

antoinezambelli가 자체 호스팅 LLM의 도구 호출을 더 안정적으로 만들어 주는 오픈소스 라이브러리 'forge'를 깃허브에 공개했다. forge는 가드레일과 컨텍스트 관리 기능을 통해 8B 규모의 로컬 모델을 다단계 에이전트 작업에서 동급 최고 수준으로 끌어올리는 것을 목표로 한다.

forge가 제공하는 가드레일은 잘못된 응답을 되살리는 구제 파싱, 재시도를 유도하는 넛지, 필수 단계 강제 등으로 구성된다. 컨텍스트 관리 측면에서는 VRAM 용량을 고려한 예산 배분과 단계별 압축을 지원한다.

현재 가장 좋은 자체 호스팅 구성은 llama-server에서 구동되는 Ministral-3 8B Instruct Q8 조합으로, forge의 26개 시나리오 평가 모음에서 86.5%를 기록했다. 가장 어려운 등급에서는 76%를 달성했다. 평가 모음은 기본 등급인 OG-18의 18개 시나리오와 상위권을 변별하기 위한 고급 추론 등급 8개 시나리오로 나뉜다.

forge는 세 가지 방식으로 쓸 수 있다. 첫 번째인 WorkflowRunner는 도구를 정의하고 백엔드를 골라 구조화된 에이전트 루프를 실행하며, 시스템 프롬프트와 도구 실행, 컨텍스트 압축, 가드레일까지 전체 수명주기를 관리한다. 여기에 더해 SlotWorker는 공유 추론 슬롯에 우선순위 큐 방식으로 접근하고 자동 선점을 지원해, 여러 전문 워크플로가 하나의 GPU 슬롯을 나눠 쓰는 멀티 에이전트 구조에 활용된다.

두 번째인 가드레일 미들웨어는 forge의 신뢰성 기능을 조합형 미들웨어 형태로 사용자가 직접 만든 오케스트레이션 루프 안에 끼워 넣는 방식이다. 루프 제어권은 사용자가 갖고, forge는 응답 검증과 잘못된 도구 호출 구제, 필수 단계 강제를 담당한다.

세 번째인 프록시 서버는 OpenAI 호환 방식의 드롭인 프록시로, opencode나 Continue, aider 같은 클라이언트와 로컬 모델 서버 사이에 자리 잡아 가드레일을 투명하게 적용한다. 클라이언트 입장에서는 더 똑똑한 모델과 대화하는 것처럼 보인다.

프록시는 요청에 도구가 포함돼 있으면 합성 respond 도구를 자동으로 끼워 넣는다. 모델이 일반 텍스트를 내놓는 대신 respond 도구를 호출하게 만들어 도구 호출 모드를 유지하고, 이 과정에서 forge의 가드레일 전체가 적용된다. respond 호출은 외부로 나가는 응답에서 제거되므로 클라이언트는 평범한 텍스트 응답을 받는다. 8B 안팎의 작은 로컬 모델은 텍스트와 도구 호출 중 무엇을 택할지 믿고 맡기기 어렵기 때문에, 도구 쪽으로 유도하는 이 방식이 반드시 필요하다고 개발자는 설명한다.

forge는 Ollama와 llama-server(llama.cpp), Llamafile, 그리고 Anthropic을 백엔드로 지원한다. 실행에는 파이썬 3.12 이상과 동작 중인 LLM 백엔드가 필요하며, 평가 상위 10개 구성은 모두 llama-server에서 구동된다. 코드 저장소에는 LLM 백엔드 없이 돌릴 수 있는 865개의 결정론적 단위 테스트가 포함돼 있다.

forge의 가드레일 프레임워크와 절제 연구는 별도의 논문으로도 발표됐다.

로컬 LLM의 도구 호출 신뢰성을 끌어올리는 오픈소스 'forge' 공개

관련 기사