애플·UNC, LLM '적응형 사고' 어댑터 'Sonata' 제안… 자가일관성 기반 사고 예산 자동 배분, 토큰 20~80% 절감
애플(Apple)과 노스캐롤라이나대 채플힐(UNC Chapel Hill) 연구진이 대규모 언어모델(LLM)의 사고(thinking) 예산을 쿼리별로 적응적으로 배분하는 경량 어댑터 'Sonata'를 제안했다. 'Adaptive Thinking: Large Language Models Know When to Think in Latent Space' 논문에서 공개됐다.
최근 LLM의 테스트 타임 컴퓨팅 발전으로 답변을 생성하기 전에 중간 단계의 chain-of-thought(CoT) 추론을 수행하는 능력이 도입됐다. 사고 예산을 늘리면 추론 시 성능이 부드럽게 향상되지만, LLM 역량·쿼리 복잡도·최적 예산 배분 사이의 관계가 충분히 규명되지 않아 컴퓨트 최적 추론(compute-optimal inference)에는 한계가 있었다고 연구팀은 설명했다.
연구팀은 여러 추론 경로 간의 합의 정도를 뜻하는 자가일관성(self-consistency)을 '사고 필요성'의 프록시로 활용했다. 자가일관성이 낮을수록 해당 쿼리가 정답에 도달하기 위해 더 긴 사고를 필요로 한다는 점을 먼저 확인했다.
이 통찰을 바탕으로 제시된 Sonata(Self-Consistency-Guided Adapter for Thinking Allocation)는 캘리브레이션 데이터셋으로 오프라인 학습된 경량 어댑터가, 쿼리 프리필링(prefilling) 단계의 마지막 레이어 은닉 표현(last layer hidden representations)으로부터 자가일관성을 직접 예측한다. 그 예측값이 사고를 시작하기 전에 예산을 즉석으로 배분하도록 안내하는 구조다.
어댑터는 한 번 학습되면 다양한 작업에 전이가 가능하고, 추론 시 거의 0에 가까운 추가 연산 오버헤드만 발생한다. 또한 기존 CoT 압축 기법과 직교(orthogonal)하기 때문에, 쿼리 간 사고 예산을 관리하는 데 결합해 추가적인 효율성 향상을 얻을 수 있다는 점도 강조됐다.
실험은 Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B, Intern-S1-mini 등 다양한 모델과 AIME24, AIME25, GSM8K, MATH500, GPQA 벤치마크에서 광범위하게 진행됐다. 그 결과 Sonata는 동일한 정확도를 유지하면서 사고 토큰을 20~80% 줄이거나, 동일한 토큰 비용에서 정확도를 최대 5%p 향상시키는 것으로 나타났다.
논문 저자는 Pingzhi Li, Bairu Hou, Yun Zhu, Yihao Feng, Ke Ye, Tao Lei, Zhifeng Chen, Tianlong Chen, Xianzhi Du 등이며, 일부 저자는 애플 재직 기간에 본 연구를 수행했고 다른 일부는 UNC Chapel Hill 소속으로 표기됐다.