연구2026년 5월 16일 PM 01:37

MSR, 'LLM 문서 위임 부패' 논문 후속 해명… 20회 위임 시 19~34% 손상

마이크로소프트 리서치(MSR)가 자체 논문 "LLMs Corrupt Your Documents When You Delegate"에 대한 후속 해명 글을 공개했다. 위임(delegated) 워크플로에서 AI 시스템 신뢰성에 대한 논의가 일자, 논문이 무엇을 주장하고 주장하지 않는지를 정리한 글이다.

MSR은 이 연구가 장기간(long-horizon) 위임·협업 과제를 평가하기 위한 견고한 방법론 개발이 목적이라고 밝혔다. 강력한 벤치마크 성능과 실제 과제 사이의 간극을 더 잘 이해하기 위한 일환이며, 통제된 평가 환경에서 정보가 확장된 워크플로 전반에 얼마나 보존되는지를 살폈다고 설명했다.

평가 대상은 사용자가 문서·스프레드시트·코드·구조화 파일 같은 중요 산출물에 대해 단계 간 사람의 검증이 거의 없이 다단계 수정을 AI에 맡기는 패턴이다. 의미 콘텐츠가 정확하게 보존되는지를 검사하는 변환·역변환 연쇄 과제와 도메인별 시맨틱 파싱을 사용했다.

핵심 결과로, 평가된 환경 전반에서 강력한 최신(SOTA) 모델은 20회의 위임 반복 동안 산출물 충실도가 대략 19~34% 저하됐다. 다만 파이썬 워크플로는 평균 1% 미만의 저하로 상대적으로 강건했다고 MSR은 밝혔다.

MSR은 측정 대상이 산출물 기저 의미 콘텐츠의 손상(corruption)이며, 과제 완료(task completion)나 사용자 만족도는 포함하지 않는다고 강조했다. 이 지표는 위임 패턴을 진단하는 도구이지 모델의 전체 역량이나 사용자 결과를 측정하는 척도가 아니라는 점도 명시했다.

방법론적 한계로는, 벤치마크 DELEGATE-52가 의도적으로 장기 위임 실행에 대한 스트레스 테스트로 설계됐다는 점을 들었다. 단계 간 사람의 개입이 거의 없는 위임 실행에 초점이 맞춰져 있어, 더 많은 감독·검증·구조화된 워크플로가 적용되는 실제 AI 배포 전반을 측정한 것은 아니다.

실험에 쓴 에이전트 환경(harness)은 파이썬 실행과 파일 조작 같은 도구 사용 능력을 갖춘 단순화된 형태였다. 이 설정이 관찰된 저하를 없애지는 못했지만, 특정 워크플로나 기업 도메인에 최적화된 프로덕션급 시스템을 대표하는 것으로 해석돼서는 안 된다고 MSR은 덧붙였다.

MSR은 이 연구의 1차적 함의가 신뢰성 있는 장기 위임이 여전히 열린 연구·엔지니어링 과제라는 점이라고 밝혔다. 단기 벤치마크에서의 강한 성능만으로 장기 위임 실행의 신뢰성이 보장되지 않을 수 있다는 의미다.

다만 이번 결과를 AI 시스템이 오늘날 실무에서 가치를 갖지 못한다는 증거로 해석해서는 안 된다고 못 박았다. 실제 배포된 다수 AI 시스템은 모델에 전용 하니스, 오케스트레이션 계층, 검색 시스템, 검증 절차, 메모리 메커니즘, 사람의 감독을 결합해 신뢰성을 끌어올리고 있다.

MSR은 향후 모델 개선, 워크플로 인지 학습(workflow-aware training), 메모리 시스템, 프로덕션급 에이전트 하니스의 발전이 이러한 실패 양상을 시간이 흐르며 더 줄일 것으로 기대한다고 밝혔다.

MSR, 'LLM 문서 위임 부패' 논문 후속 해명… 20회 위임 시 19~34% 손상

관련 기사