애플 ML 리서치, 다중 도구 추론용 'PORTool' 공개… 보상 롤아웃 트리·단계별 중요도 추정으로 정확도 향상·도구 호출 횟수 감소
애플 머신러닝 리서치팀이 다중 도구 추론(multi-tool-integrated reasoning)을 수행하는 LLM 기반 도구 사용 에이전트의 학습 효율을 끌어올리는 정책 최적화 알고리즘 'PORTool'을 공개했다. 자연어 추론과 외부 도구 호출을 번갈아 수행하며 복잡한 작업을 해결하는 에이전트를 결과 기반(outcome-only) 보상으로 학습할 때 발생하는 신용 할당(credit assignment) 모호성 문제를 해결하기 위한 접근이다.
논문 저자는 Feijie Wu, Weiwu Zhu, Yuxiang Zhang, Soumya Chatterjee, Jiarong Zhu, Fan Mo, Rong Luo, Jing Gao 등이다. 결과 보상만으로 학습할 경우 어떤 중간 단계나 도구 사용 결정이 성공 또는 실패로 이어졌는지가 가려져 학습 신호가 흐려지는 한계가 있다고 연구진은 지적했다.
PORTool은 결과 단위 감독(outcome-level supervision)을 활용해 에이전트의 도구 활용 역량을 강화하면서도 보상은 단계(step) 단위에서 부여하는 '중요도 인식(importance-aware)' 정책 최적화 알고리즘이다. 핵심 구성 요소는 보상 롤아웃 트리(rewarded rollout tree)다.
이 트리에서는 여러 trajectory가 분기 이전까지 prefix를 공유한 뒤 갈라지므로, 동일한 문맥 안에서 서로 다른 도구 사용 결정을 직접 비교할 수 있다. 같은 출발점에서 갈라진 가지들 사이의 비교를 통해 어느 결정이 더 효율적인지 평가하는 구조다.
PORTool은 각 단계의 중요도를 두 가지 신호로 추정한다. 첫째는 '정답 지배(correctness-dominant)' 신호로, 해당 단계의 후속(descendants)이 궁극적으로 올바른 최종 답을 만들어 낼 수 있는지를 본다. 둘째는 보조 항으로, 해당 단계의 도구 호출이 실제로 성공적으로 실행되는지를 평가한다.
이렇게 추정한 단계별 중요도를 기반으로 정책을 갱신하며, 각 분기 결정 안의 국소 비교(local comparison)와 전체 trajectory의 품질을 함께 고려한다. 이를 통해 에이전트가 더 효율적인 도구 호출 단계를 생성하도록 유도한다.
실험 결과 PORTool은 최신(state-of-the-art) 기준선 대비 최종 답 정확도(final-answer accuracy)를 끌어올리는 동시에 도구 호출 단계 수를 줄이는 것으로 나타났다. 어블레이션(ablation) 연구는 단계별 중요도 추정의 견고성을 뒷받침했다고 연구진은 밝혔다.
관련 기사
Appfigures, 'AI 모바일 앱 다운로드 견인은 챗봇 업그레이드 아닌 이미지 모델' 분석… 일반 업데이트 대비 6.5배, ChatGPT GPT-4o 28일간 12M+·수익 7천만 달러, Gemini Nano Banana 22M+ 다운로드
스프링거 네이처, ChatGPT 교육 효과 메타분석 논문 게재 약 1년 만에 철회… 51개 연구 종합 주장에 에든버러대 윌리엄슨 '저질 연구 혼합' 비판, 누적 504회 인용·조회 약 50만
OpenAI, ChatGPT 음성·Realtime API용 WebRTC 스택 재설계 공개… 주간 활성 9억 명 위한 트랜시버 모델·단일 UDP 포트 아키텍처