애플 ML 리서치 'LaDiR' 공개… VAE+잠재 디퓨전으로 LLM 텍스트 추론의 정확도·다양성·해석가능성 동시 향상
애플 머신러닝 리서치(Apple Machine Learning Research)가 대형언어모델(LLM)의 텍스트 추론 능력을 끌어올리는 새로운 프레임워크 'LaDiR(Latent Diffusion Reasoner)'를 공개했다. 연속적 잠재 표현(continuous latent representation)의 표현력과 잠재 디퓨전 모델의 반복적 정제(iterative refinement) 능력을 결합해 기존 chain-of-thought(CoT) 추론의 한계를 보완한다는 게 핵심이다.
연구진은 기존 LLM의 autoregressive 디코딩이 토큰을 한 단계씩 순차적으로 생성하는 구조여서, 이미 만들어진 앞선 토큰을 holistic하게 재방문·정제하기 어렵고 다양한 해법을 탐색하는 데에도 비효율적이라는 점을 문제로 지적했다.
LaDiR는 먼저 변분 오토인코더(VAE)를 활용해 텍스트 추론 단계를 'thought token' 블록 형태로 인코딩한 구조화된 잠재 추론 공간(structured latent reasoning space)을 구축한다. 의미 정보와 해석 가능성(interpretability)을 보존하면서도 간결하고 표현력 있는 표현을 제공하는 것이 목적이라고 논문은 밝혔다.
다음 단계로 잠재 디퓨전 모델이 'blockwise bidirectional attention mask'를 적용해 잠재 thought token 블록을 노이즈 제거(denoise)하도록 학습한다. 이를 통해 더 긴 추론 horizon과 반복적 refinement, 그리고 적응형 테스트타임 컴퓨트(adaptive test-time compute)가 가능해진다는 설명이다.
이 같은 설계 덕분에 모델은 다양한 추론 경로(reasoning trajectory)를 효율적으로 병렬 생성할 수 있으며, 추론 과정을 holistic하게 계획하고 수정하는 것이 가능해진다고 연구진은 설명했다.
연구진은 LaDiR를 수학적 추론(mathematical reasoning)과 계획(planning) 벤치마크 모음에서 평가했다. 그 결과 기존 autoregressive·디퓨전 기반(diffusion-based)·잠재 추론(latent reasoning) 방식들에 비해 정확도(accuracy), 다양성(diversity), 해석 가능성(interpretability)이 일관되게 개선됐다는 결과를 제시했다.
논문 저자진은 Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang, Nicklas Majamaki, Navdeep Jaitly, Yi-An Ma, Lianhui Qin으로 구성됐으며, latent diffusion이 텍스트 추론 분야의 새로운 패러다임을 열 수 있다고 결론지었다.