연구2026년 5월 2일 AM 01:37

애플 ML 'Reinforced Agent' 공개… 리뷰어 에이전트로 도구 호출 사전 검토, BFCL 무관성 +5.5%·τ2-Bench 멀티턴 +7.1%·o3-mini 3:1 이득 대 위험 비

애플 머신러닝 연구진이 도구 호출(tool-calling) 에이전트의 오류를 추론 시점에 사전 차단하는 'Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents' 논문을 공개했다. 이 논문은 ACL 2026의 'Fifth Workshop on Natural Language Generation, Evaluation, and Metrics'(자연어 생성·평가·메트릭 5차 워크숍)에 채택됐다. 저자는 Anh Ta, Junjie Zhu, Shahin Shayandeh 세 사람이다.

도구 호출 에이전트의 평가는 일반적으로 도구 선택(tool selection), 파라미터 정확도(parameter accuracy), 범위 인식(scope recognition) 세 축으로 이뤄진다. 그러나 LLM의 궤적(trajectory) 평가는 본질적으로 사후(post-hoc)에 이뤄지며 실제 실행 루프(execution loop)와 단절돼 있다. 이렇게 발견된 오류는 보통 프롬프트 튜닝이나 재학습으로 해결되지만, 그 방식만으로는 에이전트가 실행 도중 실시간으로 경로를 수정할 수 없다는 한계가 있다고 연구진은 지적한다.

연구진은 평가 자체를 추론 시점의 실행 루프 안으로 끌어들이는 접근을 제안했다. 별도의 '리뷰어 에이전트(reviewer agent)'가 도구 호출이 실제로 실행되기 전에 잠정 호출(provisional tool call)을 검토해, 사후 복구(post-hoc recovery) 대신 사전 평가와 오류 완화로 패러다임을 전환한다는 것이다. 즉 주(execution) 에이전트와 보조(review) 에이전트가 관심사를 분리해 협업하는 구조다.

다만 멀티 에이전트 시스템에서 흔히 지적되듯, 리뷰어 자체가 본래 옳았던 응답을 잘못된 것으로 만드는 새 오류를 끼워 넣을 수 있다. 연구진은 '이 트레이드오프를 체계적으로 측정한 선행 연구가 없다'며 새로운 'Helpfulness-Harmfulness' 메트릭을 제안했다. Helpfulness는 베이스 에이전트의 오류 가운데 피드백이 바로잡은 비율을, Harmfulness는 원래 정확했던 응답을 피드백이 오히려 망친 비율을 가리킨다.

이 두 지표는 특정 모델·프롬프트 조합이 리뷰어로서 순기여를 하는지 직접적으로 판정해 리뷰어 설계 의사 결정에 활용된다. 실험은 단일 턴 벤치마크 BFCL과 멀티턴 상태 유지(stateful) 시나리오 벤치마크 τ2-Bench에서 진행됐다. 그 결과 무관성 검출(irrelevance detection)에서 +5.5%, 멀티턴 과제에서 +7.1%의 성능 향상이 확인됐다.

연구진은 리뷰어 모델 선택이 결과를 결정짓는다는 점도 함께 보고했다. 추론(reasoning) 모델인 o3-mini는 'benefit-to-risk ratio'(이득 대 위험 비)가 3:1인 반면, GPT-4o는 2.1:1에 그쳤다. 자동 프롬프트 최적화 기법 GEPA를 더하면 +1.5~2.8%포인트의 추가 성능 향상이 가능했다.

연구진은 이 결과가 실행 에이전트와 리뷰어를 분리한 설계의 핵심 장점을 보여준다고 강조했다. 베이스 에이전트를 재학습(retraining)하지 않고도 리뷰어는 더 강한 모델로 교체하거나 프롬프트를 최적화하는 방식으로 체계적으로 개선될 수 있다는 의미다. 이는 도구 호출 에이전트를 운영하면서 모델 재학습 비용을 최소화하려는 조직에 실용적인 함의를 갖는다.

애플 ML 'Reinforced Agent' 공개… 리뷰어 에이전트로 도구 호출 사전 검토, BFCL 무관성 +5.5%·τ2-Bench 멀티턴 +7.1%·o3-mini 3:1 이득 대 위험 비

관련 기사