IBM 연구팀, AI 에이전트의 장기 학습 프레임워크 ALTK-Evolve 공개… 어려운 작업에서 성공률 74% 상대 향상
IBM 연구팀이 AI 에이전트의 장기 학습을 가능하게 하는 메모리 시스템 ALTK-Evolve를 Hugging Face 블로그를 통해 공개했다. 이 프레임워크는 에이전트의 과거 실행 궤적(trajectory)을 재사용 가능한 가이드라인으로 변환해, 매번 과거 로그를 다시 읽는 대신 원칙을 학습하도록 설계되었다.
연구팀은 현재 대부분의 AI 에이전트가 겪는 문제를 '영원한 인턴 문제'로 비유했다. 에이전트가 과거 트랜스크립트를 다시 읽을 뿐 새로운 상황에 교훈을 전이하지 못한다는 것이다. MIT 연구에 따르면 에이전트 파일럿의 95%가 현장 적응·학습 부재로 실패한다.
ALTK-Evolve는 연속 루프 방식으로 작동한다. 하향 흐름에서는 에이전트의 전체 궤적(사용자 발화, 사고 과정, 도구 호출, 결과)을 Langfuse 등 OpenTelemetry 기반 관측 도구로 캡처하고, 플러그형 추출기가 구조적 패턴을 채굴해 후보 엔티티로 저장한다. 상향 흐름에서는 백그라운드 작업이 중복을 병합하고 약한 규칙을 제거하며, 검증된 전략의 점수를 높여 가이드라인 라이브러리를 정제한다.
AppWorld 벤치마크에서 ReAct 에이전트에 이전 실행에서 생성된 상위 5개 가이드라인을 제공한 결과, 시나리오 목표 완료율(SGC)이 전반적으로 개선됐다. 쉬운 작업은 79.0%에서 84.2%로(+5.2%p), 중간 난이도는 56.2%에서 62.5%로(+6.3%p), 어려운 작업은 19.1%에서 33.3%로(+14.2%p) 향상됐다. 종합 수치는 50.0%에서 58.9%로 8.9%p 올랐다.
특히 어려운 작업에서 74%의 상대적 성공률 증가가 나타났다. AppWorld의 작업은 평균 1.8개 앱에 걸친 9.5개 API를 사용하는 복잡한 멀티스텝 구성이며, 어려운 케이스는 더 복잡한 제어 흐름을 요구한다. 가이드라인이 복잡한 제어 흐름을 탐색하는 데 특히 유용한 것으로 나타났다.
SGC 향상이 단순 통과율 개선보다 더 크게 나타나, 시나리오 변형 간 '불안정한(flaky)' 행동이 줄었다는 점도 주목할 만하다. 가이드라인이 에이전트의 작업 해결뿐 아니라 변형 전반에 걸친 안정적 해결에도 기여한 것이다.
ALTK-Evolve는 다양한 통합 방식을 제공한다. Claude Code에서는 플러그인 설치만으로 노코드 사용이 가능하며, Codex와 IBM Bob에도 원스텝 통합이 지원된다. 로우코드 방식은 ReAct 에이전트에 한 줄 임포트를 추가하는 것으로, OpenAI, LiteLLM, Hugging Face 에이전트 등 기존 스택을 유지한 채 적용할 수 있다.
프로코드 방식에서는 CUGA에 MCP를 통해 직접 통합된다. 각 실행 전 get_guidelines MCP 도구로 작업별 가이드를 불러오고, 실행 후 save_trajectory로 구조화된 실행 추적을 전송해 향후 가이드 개선에 활용한다. 상세 실험 결과는 논문(arxiv.org/abs/2603.10600)에서 확인할 수 있다.