목록으로
연구2026년 4월 2일 AM 02:36

마이크로소프트·프린스턴, AI 성능 예측 프레임워크 ADeLe 네이처 논문 발표

마이크로소프트 리서치가 프린스턴대학교, 스페인 발렌시아 폴리테크닉대학교와 공동으로 개발한 AI 평가 프레임워크 ADeLe(AI Evaluation with Demand Levels)가 네이처(Nature) 저널에 게재됐다. ADeLe는 기존 벤치마크가 개별 작업 점수만 제공하는 한계를 넘어, 모델의 근본적인 능력을 체계적으로 측정하고 새로운 작업에서의 성능까지 예측할 수 있는 방법론이다.

ADeLe의 핵심은 작업과 모델을 동일한 능력 축으로 표현하는 것이다. 주의력, 추론, 도메인 지식 등 18개 핵심 능력에 대해 각 작업이 요구하는 수준을 0에서 5까지 점수로 매긴다. 예를 들어 기초 산술 문제는 정량적 추론 점수가 낮지만, 올림피아드 수준의 증명 문제는 훨씬 높은 점수를 받는다.

연구팀은 이 프레임워크로 15개 대규모 언어 모델(LLM)을 평가했다. 다양한 작업에 걸쳐 모델을 테스트하면 각 모델의 능력 프로파일이 생성되는데, 이 프로파일을 새로운 작업의 요구 수준과 비교하면 해당 모델이 성공할지 실패할지를 사전에 판단할 수 있다.

실험 결과, GPT-4o와 LLaMA-3.1-405B 같은 모델에 대해 약 88%의 정확도로 새 작업 성능을 예측하는 데 성공했다. 이는 기존 전통적인 방법론을 상회하는 수치로, 배포 전에 잠재적 실패 지점을 사전 파악할 수 있다는 점에서 실용적 가치가 크다.

ADeLe는 기존 벤치마크의 구조적 문제도 드러냈다. 논리적 추론을 측정하도록 설계된 테스트가 실제로는 전문 지식이나 메타인지에 크게 의존하는 경우가 있었고, 난이도 범위가 지나치게 좁아 쉬운 문제와 어려운 문제를 모두 빠뜨리는 벤치마크도 발견됐다.

추론 능력에 대한 분석도 주목할 만하다. 같은 모델이 낮은 난이도의 추론 테스트에서 90% 이상을 기록하면서도, 높은 난이도에서는 15% 미만으로 떨어지는 현상이 관찰됐다. 이는 모델 능력 자체의 변화가 아니라 작업 요구 수준의 차이를 반영하는 것이라고 연구팀은 설명했다.

OpenAI의 o1과 GPT-5 같은 추론 특화 모델은 논리, 수학뿐 아니라 사용자 의도 해석에서도 일반 모델 대비 측정 가능한 개선을 보였다. 다만 작업 요구 수준이 높아질수록 성능은 여전히 하락했으며, ADeLe는 각 모델에 대해 그 한계점이 어디인지를 구체적으로 식별할 수 있다.

이 연구는 마이크로소프트의 AFMR(Accelerating Foundation Models Research) 보조금 프로그램의 지원을 받았다. 연구팀은 ADeLe를 멀티모달 및 구현형 AI 시스템으로 확장할 계획이며, AI 연구, 정책 수립, 보안 감사를 위한 표준화된 프레임워크로 발전시키겠다는 목표를 밝혔다. 추가 실험 데이터와 벤치마크 주석은 깃허브에 공개돼 있다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사