앨런AI, LLM 개발 전 과정을 평가하는 워크벤치 'olmo-eval' 공개
앨런AI(Ai2)가 LLM을 개발하는 동안 반복되는 평가 작업을 위한 워크벤치 'olmo-eval'을 공개했다. 데이터·아키텍처·하이퍼파라미터를 조정하거나 규모를 키울 때마다 벤치마크를 다시 구성하고 새 체크포인트마다 재실행해 결과를 확인하는 같은 루프를 도는데, 기존 평가 도구는 이렇게 끊임없이 바뀌는 모델에 맞춰 설계되지 않았다고 회사는 지적했다.
olmo-eval은 앞서 2024년 내놓은 평가 표준 OLMES(Open Language Model Evaluation Standard)를 토대로 한다. 같은 모델이 같은 벤치마크에서도 프롬프트 형식이나 과제 구성 방식이 논문마다 달라 점수 비교와 재현이 어려웠는데, OLMES가 이런 선택지를 공개 표준으로 고정했고 Olmo와 Tulu 등 자사 공개 모델 평가의 기반이 됐다.
olmo-eval은 이 표준을 LLM 개발의 나머지 단계로 확장한다. 새 평가를 구현하는 작업량을 줄이고, 평가를 어디서 어떻게 실행할지에 더 많은 유연성을 주며, 개별 구성요소를 더 큰 워크플로로 조합하기 쉽게 했다. 에이전트형·멀티턴 평가를 일급 기능으로 지원하고, 어떤 개입이 실제로 기준선보다 나아졌는지 아니면 차이가 잡음 수준인지 판단하는 분석 도구도 강화했다.
olmo-eval은 컨테이너 기반 에이전트 평가 프레임워크 Harbor와 일부 겹치지만 범위가 다르다. Harbor가 에이전트 벤치마크를 봉인된 동일 컨테이너에서 실행·공개하는 데 초점을 둔 반면, olmo-eval은 모델을 개발하는 일상 작업을 위해 만들어졌다. 컨테이너는 자원 소모가 크기 때문에 olmo-eval은 벤치마크마다 실행 방식을 고를 수 있게 했다. 질문에 답만 하면 되는 벤치마크는 더 빠르고 저렴하게 직접 실행하고, 모델이 작성한 코드를 돌리는 등 격리 환경이 필요한 경우에만 컨테이너를 쓴다.
olmo-eval에서는 평가 대상 모델, 사용 도구, 컨테이너 환경, LLM 심판 같은 보조 모델이 모두 교체 가능한 구성요소다. 하나의 도구를 여러 하니스에서 재사용하거나, 다른 벤치마크를 건드리지 않고 채점 모델만 끼워 넣거나, 프롬프트 문구 같은 작은 설정을 큰 수고 없이 조정할 수 있다.
점수도 단순한 총점에 그치지 않는다. olmo-eval은 각 모델 점수를 표준오차, 그리고 잡음과 구분되는 가장 작은 차이인 '최소 탐지 효과'와 함께 보고한다. 더 유용한 것은 같은 질문들을 두 체크포인트에 나란히 놓고 하나씩 비교하는 방식으로, 전체 평균의 작은 변화가 실제 개선인지 단순 잡음인지 가려준다.
도구는 네 가지 구성요소로 이뤄진다. 벤치마크 로직과 실행 정책을 분리하는 태스크·스위트·하니스 추상화, 비동기 샌드박스 플래너를 포함한 샌드박스·역량 라우팅 계층, 모든 실행과 설정·결과를 같은 구조로 기록하는 정규화된 실험 스키마, 그리고 두 모델이나 체크포인트를 질문 단위로 비교하는 결과 뷰어다.