목록으로
연구2026년 4월 10일 AM 02:40

애플 ML 연구팀, 소형 언어 모델의 토큰 위임 학습법 LaCy 발표… ICLR 워크숍 채택

애플 머신러닝 연구팀이 소형 언어 모델(SLM)을 위한 새로운 사전학습 방법인 LaCy를 발표했다. 이 논문은 ICLR의 'LLM 기반 에이전트 시스템을 위한 메모리(Memory for LLM-Based Agentic Systems)' 워크숍에 채택됐다.

언어 모델은 파라미터에 더 많은 세계 지식을 압축하기 위해 지속적으로 성장해 왔지만, 사전학습으로 저장할 수 있는 지식량은 파라미터 크기에 의해 상한이 정해진다. 특히 소형 언어 모델은 용량이 제한적이어서 사실과 다른 텍스트를 생성하는 문제가 발생한다.

이 문제는 SLM에 외부 소스 접근 권한을 부여해 완화할 수 있다. 더 큰 모델에 쿼리하거나, 문서나 데이터베이스를 참조하는 방식이다. 연구팀은 이 설정하에서 SLM이 사전학습 중 어떤 토큰을 직접 학습해야 하고, 어떤 토큰을 특수한 CALL 토큰을 통해 위임해야 하는지를 연구했다.

연구 결과, 위임 여부는 단순히 손실(loss)의 문제가 아닌 것으로 나타났다. 손실값이 예측 토큰과 정답의 불일치를 예측하는 데 유용하지만, 일부 토큰은 사전학습 문서의 진실된 대안적 연속이기 때문에 손실이 높더라도 CALL을 트리거하면 안 되는 경우가 있었다.

연구팀은 spaCy 문법 파서를 활용해 손실 신호를 보강함으로써, 사실 오류를 방지하기 위해 위임해야 할 토큰과 높은 손실에서도 안전하게 학습·예측할 수 있는 토큰을 구분하는 방법을 제안했다. 이를 기반으로 한 토큰 선택 철학이 LaCy의 핵심이다.

실험 결과, LaCy로 학습된 모델은 어떤 토큰을 직접 예측하고 어디서 도움을 요청할지를 성공적으로 학습했다. 대형 모델과의 캐스케이드 생성에서 더 높은 FactScore를 기록했으며, 기존 Rho 방식이나 LLM 판단 기반으로 학습된 SLM을 능가했다.

LaCy는 기존 방법 대비 더 단순하고 비용 효율적이라는 점도 장점이다. 이 연구는 소형 모델이 모든 것을 스스로 처리하려 하기보다, 자신의 한계를 인지하고 적절히 위임하는 법을 학습하는 것이 더 나은 결과를 만든다는 방향성을 제시한다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사