목록으로
연구2026년 5월 10일 AM 03:34

오픈소스 종양학 AI 'OncoAgent' 프리프린트 공개… AMD MI300X·QLoRA로 9B/27B 듀얼티어, NCCN·ESMO 70+ 가이드라인 CRAG, Zero-PHI 온프레미스

OncoAgent Research Group이 2026년 5월 발표한 기술 프리프린트에서 오픈소스 종양학 임상의사결정지원(CDSS) 시스템 'OncoAgent'를 공개했다. 이 시스템은 듀얼티어 fine-tuned LLM 아키텍처, LangGraph 기반 멀티에이전트 토폴로지, 70개 이상의 NCCN·ESMO 가이드라인을 활용한 4단계 Corrective RAG 파이프라인, 그리고 엄격한 Zero-PHI 정책을 강제하는 3계층 reflexion 안전 검증기를 결합했다. 전체 시스템은 100% 오픈소스이며 온프레미스 배포를 통해 환자 데이터 주권을 보존한다.

듀얼티어 모델은 속도 최적화 9B 파라미터 모델(Tier 1)과 심층 추론 27B 모델(Tier 2)로 구성된다. 두 모델 모두 266,854건의 실제 및 합성 종양학 케이스 코퍼스를 기반으로 Unsloth 프레임워크와 AMD Instinct MI300X(192GB HBM3) 하드웨어 위에서 QLoRA로 fine-tuning됐다. MI300X에서 시퀀스 패킹을 적용해 전체 데이터셋 fine-tuning이 약 50분 만에 완료됐으며, 이는 API 기반 생성 대비 약 56배의 처리량 가속을 의미한다.

시스템은 LangGraph 기반의 stateful directed graph로 구현돼 8개 노드로 구성된다. 토폴로지는 'Router → Ingestion → Corrective RAG → Specialist ↔ Critic → HITL Gate → Formatter → END'이며, Fallback 분기가 별도로 존재한다. 5개의 conditional edge, 최대 2회 반복되는 1개의 reflexion retry loop, 고복잡도 또는 저신뢰 출력에 대한 1개의 mandatory HITL interrupt가 포함된다. 시스템 상태는 11개 논리 섹션과 약 30개 typed key를 가진 immutable AgentState TypedDict로 표현되며, 각 노드는 상위 데이터를 변경하지 않고 특정 키에만 추가해 완전한 감사 추적을 보존한다.

복잡도 라우터는 가중 가산 모델 'S = w_cancer + w_stage + w_mutations + w_treatment'로 사례 복잡도를 정량화한다. 가중치는 희귀암 +0.40, 원발 미상 +0.30, Stage IV +0.25, Stage III +0.15, 변이 2개 이상 +0.30, 단일 변이 +0.15, 사전 치료 키워드 매치 +0.10이다. 결정 경계는 S ≥ 0.5이며, 이상이면 Tier 2(Qwen 3.6-27B 심층 추론), 미만이면 Tier 1(Qwen 3.5-9B 신속 트리아지)로 라우팅된다. 검증 사례인 KRAS·BRCA2 변이를 동반한 Stage IV 췌장암 케이스는 S = 0.80으로 산출돼 Tier 2로 정확히 라우팅됐다. 임상의는 UI를 통해 티어 선택을 수동 오버라이드할 수도 있다.

Corrective RAG(CRAG) 노드는 검색된 문서의 임상적 관련성을 이진 분류해 평가하고, 평가에 실패하면 자동으로 쿼리를 재구성한다(최대 1회 재시도). 이는 RAG 파이프라인의 주요 환각 원인인 '의미적으로 무관하지만 그럴듯한 제목의 문서 검색'을 차단하는 역할을 한다. 평가 단계 모델을 Qwen 3.5에서 Qwen 2.5 Instruct로 마이그레이션한 이후 성공률이 0%에서 100%로 개선됐고, 자궁암 트리아지 테스트에서 RAG 신뢰 점수가 2.3+에 도달했다.

Critic 노드는 출력이 HITL 게이트에 도달하기 전 3계층 검증 캐스케이드를 실행한다. ▲OncoCoT 출력 스키마 구조 준수를 확인하는 포매팅 체크 ▲가이드라인 인용 없는 절대 용량 처방, 약물 상호작용 누락 등 금지 패턴을 결정적 룰로 스캔하는 안전 체크 ▲Specialist 권고가 검색된 RAG 컨텍스트에 의해 완전히 뒷받침되는지 검증하는 LLM entailment 체크가 그것이다. FAIL 시 Critic의 구체적 피드백이 Specialist 컨텍스트에 재주입돼 재시도된다(최대 2회). Critic은 LLM이 아닌 결정적 코드로 동작하기 때문에 적대적 프롬프팅으로 안전 강제를 우회할 수 없다.

HITL 게이트는 모든 Tier 2 케이스와 rag_confidence < 0.3인 모든 출력에 대해 의무적인 임상의 인터럽트를 제공한다. 별도의 Fallback 노드는 복구 불가 실패를 잡아 임상적으로 안전한 거부 응답 'Información no concluyente en las guías provistas'를 반환해 어떤 실패 모드에서도 환각된 대안을 내놓지 않도록 한다. PatientMemoryStore 모듈은 환자 세션마다 'PT-XXXX' 형식의 고유 thread_id를 부여해 LangGraph의 configurable 파라미터로 전달함으로써 환자별 메모리를 격리한다.

OncoAgent는 4가지 SOTA 멀티에이전트 패턴을 통합한다. 결정적 안전 하니스를 LLM 추론과 분리하는 Claude Code 패턴, 세션별 메모리 격리와 구조화 도구 호출의 Hermes Agent 패턴, 문서 관련성 평가와 쿼리 재구성의 Corrective RAG(Shi et al., 2024), 그리고 피드백 증강 재시도 루프를 통한 자가 교정의 Reflexion(Shinn et al., 2023)이다. 또한 의학 동의어 불일치 해소를 위해 자연어 쿼리를 가이드라인 임베딩 공간으로 투영하는 Hypothetical Document Embeddings(HyDE; Gao et al., 2022)를 통합했다. 전체 추론·학습 스택은 ROCm과 오픈소스 프레임워크만으로 AMD Instinct MI300X 위에서 네이티브로 동작하며, 데이터 외부 유출 없이 병원 환경에 배포 가능하다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사