연구2026년 4월 30일 AM 02:38

AI 평가가 새로운 컴퓨트 병목… HAL 21,730 롤아웃에 4만 달러, GAIA 1회 2,829달러, '평가 비용이 사전훈련 추월'

AI 평가(eval)가 '누가 평가할 수 있는가'를 가르는 비용 문턱을 넘었다는 분석이 나왔다. 허깅페이스 블로그에 공개된 글에 따르면 Holistic Agent Leaderboard(HAL)는 최근 9개 모델 × 9개 벤치마크에서 21,730번의 에이전트 롤아웃을 돌리는 데 약 4만 달러를 썼고, GAIA 1회 실행은 캐싱 전 기준으로 2,829달러까지 비용이 들 수 있다고 분석됐다.

비용 문제는 에이전트 시대 이전부터 시작됐다. 스탠퍼드 CRFM이 2022년 공개한 HELM은 모델별 API 비용이 OpenAI code-cushman-001의 85달러부터 AI21 J1-Jumbo(178B)의 10,926달러까지 분포했고, 오픈 모델은 540~4,200 GPU시간이 필요했다(상단에 BLOOM 176B, OPT 175B). IBM 리서치는 Granite-13B를 HELM에 돌리면 'GPU시간이 최대 1,000시간까지 들 수 있다'고 밝혔다. HELM 30개 모델 × 42개 시나리오 합산 비용·컴퓨트는 약 10만 달러 규모였다.

Perlitz 등의 EleutherAI Pythia 체크포인트 분석은 평가가 곧 사전훈련 비용을 따라잡을 수 있음을 보였다. Pythia는 8개 사이즈를 포함한 16개 모델에 각각 154개 체크포인트를 공개해 합계 2,464개의 체크포인트가 존재했고, 이를 LM Evaluation Harness로 모두 평가하면 '체크포인트를 평가할 때 평가 비용이 사전훈련 비용을 능가할 수 있다'는 것이 Perlitz 등(2024)의 결론이었다. 추론(인퍼런스) 컴퓨트를 키우면 평가 컴퓨트도 함께 커지는 구조다.

정적 벤치마크에서는 압축 기법이 잘 통했다. Perlitz 등은 HELM 컴퓨트를 100~200×까지 줄여도 거의 같은 순위가 보존됨을 보였고, Flash-HELM은 '저비용 평가 → 상위 후보에 정밀 컴퓨트' 단계 절차로 이를 실용화했다. tinyBenchmarks는 Item Response Theory를 활용해 MMLU 14,000개 항목을 100개 앵커로 압축(약 2% 오차)했고, Open LLM Leaderboard는 29,000 → 180개로 축소됐다. Anchor Points는 GLUE에서 1~30개 사례만으로도 87개 LM·프롬프트 쌍의 순위를 매길 수 있음을 보였다.

그러나 에이전트로 옮겨가자 압축 효과가 급격히 약해진다. Kapoor 등(ICLR 2026)이 발표한 HAL은 코딩·웹 내비게이션·과학 작업·고객 서비스를 아우르는 9개 벤치마크를 표준화 하니스 위에서 돌렸고, 21,730 롤아웃에 4만 달러가 들었다. 2026년 4월 기준 이 리더보드는 26,597 롤아웃까지 확장됐다. Ndzomga의 독립 재현은 242회 에이전트 실행에 4만 6,000달러로 거의 같은 수준이었다. HAL 작업별 1회 비용은 4자릿수(orders of magnitude) 차이가 나고, 일부 단일 벤치마크 안에서도 3자릿수 차이가 난다.

더 비싼 조합이 더 정확한 것도 아니다. Claude Opus 4.1은 입력 100만 토큰당 15달러·출력 75달러인 반면 Gemini 2.0 Flash는 0.10달러·0.40달러로 입력 단가만 두 자릿수 차이가 난다. Online Mind2Web에서 Browser-Use + Claude Sonnet 4 조합은 1,577달러로 정확도 40%, SeeAct + GPT-5 Medium은 171달러로 42%를 기록해 HAL 논문은 '비용은 9배 차이인데 정확도는 2%p 차이'라고 표현했다. GAIA에서는 HAL Generalist + o3 Medium 조합이 2,828달러로 28.5%, 다른 에이전트는 1,686달러로 57.6%를 찍었다. CLEAR는 6개 SOTA 에이전트 × 300개 기업 과제를 돌려 '정확도 최적 구성이 파레토 효율 대안보다 4.4~10.8× 더 비쌌다'고 보고했다.

정적 시대의 절감 도구는 에이전트에서 효과가 작다. Ndzomga의 '난이도 중간(역사적 통과율 30~70%)' 필터는 2~3.5× 절감에 그쳐, 정적 벤치마크에서 가능한 100~200× 절감과는 거리가 멀다. 한 항목이 곧 다중 턴 롤아웃이고 그 안에 자체 분산이 있는 만큼, 길어진 단일 궤적 자체가 비싼 단위가 됐기 때문이다.

과학 ML 영역에서는 평가 자체가 곧 처음부터의 훈련이다. The Well은 생물 시스템·유체역학·자기유체역학·초신성 폭발·점탄성 불안정성·능동물질 등을 다루는 16개 데이터셋(총 15 TB) 묶음으로, H100 1대에서 12시간 훈련 × 학습률 5개 × 아키텍처 4개 × 데이터셋 16개 = 3,840 H100시간(약 9,600달러)이 한 번의 헤드라인 스윕이다. 새 아키텍처 1개를 평가하는 데에도 960 H100시간(약 2,400달러)이 든다. 신경연산자 1개를 훈련하는 데는 12시간이지만 벤치마크 평가는 80번의 훈련을 요구해, 평가 컴퓨트가 훈련 컴퓨트를 약 2자릿수 초과하는 역전이 일어난다.

OpenAI MLE-Bench는 에이전트와 훈련 사이에 위치한다. 75개 Kaggle 대회 각각에 대해 24시간씩 단일 A10 GPU에서 ML 파이프라인을 학습시키면 한 실험 단위가 1,800 GPU시간이 되고, o1-preview는 시드당 입력 1.275억·출력 1,500만 토큰을 소모한다. A10 시간당 1.5달러 기준 GPU 비용 바닥만 2,700달러, o1-preview API까지 합치면 1시드 1회가 약 5,500달러, 시드 3 × 모델 6 구성이면 채점·재시도를 빼고도 약 10만 달러에 근접한다.

AI 평가가 새로운 컴퓨트 병목… HAL 21,730 롤아웃에 4만 달러, GAIA 1회 2,829달러, '평가 비용이 사전훈련 추월'

관련 기사