연구2026년 4월 17일 AM 05:37

Apple, 멀티모달 LLM 중간학습 데이터 믹스 최적화 프레임워크 'MixAtlas' 공개… ChartQA +10%·TextVQA +13%

Apple 머신러닝 리서치 팀이 멀티모달 대형언어모델(LLM)의 중간학습(midtraining) 단계에서 데이터 믹스를 최적화하는 프레임워크 'MixAtlas'를 공개했다. 해당 논문은 ICLR 2026의 NADPFM(Navigating and Addressing Data Problems for Foundation Models) 워크숍에 채택됐다.

연구진은 도메인 비중을 원칙에 따라 재조정하면 샘플 효율성과 다운스트림 일반화 성능이 크게 개선될 수 있지만, 멀티모달 사전학습에서는 데이터 믹스 최적화가 충분히 탐구되지 않아 왔다고 진단했다. 현재의 멀티모달 학습 레시피는 데이터 포맷이나 태스크 유형 등 단일 관점에서만 믹스를 조정해 왔다는 지적이다.

MixAtlas는 학습 데이터를 '이미지 개념(image concepts)'과 '태스크 감독(task supervision)'이라는 두 해석 가능한 축으로 분해한다. 이 구조를 통해 믹스를 해석 가능한 방식으로 제어하고, 각 축 내 특정 도메인이 다운스트림 성능에 기여하는 정도를 세밀하게 귀속시킬 수 있다.

구현 측면에서는 소형 프록시 모델과 가우시안 프로세스 서러게이트를 활용해 믹스 공간을 탐색한다. 전체 규모 학습 비용의 1/100 수준에서 믹스 공간을 탐색할 수 있다는 것이 연구진의 설명이다.

실험 결과 MixAtlas로 도출된 믹스는 기존 접근 방식 대비 최대 3배 빠른 수렴과 다양한 벤치마크에서 2–5%의 일관된 성능 향상을 기록했다. 특히 텍스트가 풍부한 벤치마크에서 강한 효과를 보여 ChartQA에서 +10%, TextVQA에서 +13%의 성능 향상을 달성했다.

소형 프록시 모델로 얻은 믹스가 더 큰 규모의 모델 학습으로 전이될 때도 효율성과 정확도 향상이 그대로 유지된다는 점도 함께 확인됐다. 연구진은 이를 바탕으로 MixAtlas가 멀티모달 믹스 최적화를 실용적이고 해석 가능한 방식으로 제시하며, 차세대 MLLM 학습을 위한 구체적이고 연산 효율적인 레시피를 제공한다고 결론 지었다.

공동 저자에는 Bingbing Wen, Sirajul Salekin, Feiyang Kang, Lucy Lu Wang, Bill Howe, Javier Movellan, Manjot Bilkhu가 이름을 올렸다.

Apple, 멀티모달 LLM 중간학습 데이터 믹스 최적화 프레임워크 'MixAtlas' 공개… ChartQA +10%·TextVQA +13%

관련 기사