애플 연구진, 학습 데이터 가지치기로 소형 모델의 사실 기억력 10배 큰 모델 수준으로 향상
애플 머신러닝 연구소의 연구진이 학습 데이터 선별(프루닝)만으로 소형 언어 모델의 사실 기억 능력을 대폭 향상시키는 방법을 제안했다. 이 연구는 ICLR 2026의 기반 모델 데이터 문제 탐색 워크숍에서 발표됐다.
대형 언어 모델(LLM)은 매개변수에 사실 정보를 저장하는 데 한계가 있어 환각(hallucination) 현상과 지식 집약적 작업에서 저조한 성능을 보이는 문제가 있다. 연구진은 이 문제를 정보 이론적 관점에서 공식화했다.
연구 결과에 따르면, 학습 데이터에 포함된 사실 정보의 양이 모델 용량을 초과할 때 사실 정확도가 최적 수준 이하로 떨어진다. 이 문제는 사실의 빈도 분포가 멱법칙(power law)처럼 치우쳐 있을 때 더욱 심화된다.
이를 해결하기 위해 연구진은 학습 손실(training loss)만을 기반으로 한 데이터 선별 기법을 제안했다. 이 방법은 학습 데이터에 포함되는 사실의 수를 제한하고 빈도 분포를 평탄화하는 것을 목표로 한다.
고엔트로피 사실을 포함한 반합성 데이터셋 실험에서 이 선별 방법은 사실 정확도를 모델 용량 한계까지 효과적으로 끌어올렸다.
주석이 달린 위키피디아 코퍼스로 언어 모델을 처음부터 사전학습한 실험에서는 GPT2-Small 모델(1억 1,000만 개 매개변수)이 표준 학습 대비 1.3배 더 많은 개체(entity) 사실을 기억했다. 이는 전체 데이터셋으로 사전학습한 10배 큰 모델(13억 개 매개변수)의 성능에 필적하는 수준이다.
이 연구는 모델 크기를 키우지 않고도 학습 데이터 최적화만으로 사실 기억 능력을 크게 개선할 수 있음을 시사한다. 적게 넣어야 더 많이 기억한다(Cram Less to Fit More)는 제목이 핵심 메시지를 함축한다.
연구진은 지아위안 예(Jiayuan Ye), 비탈리 펠드먼(Vitaly Feldman), 쿠날 탈와르(Kunal Talwar) 세 명으로 구성됐다.