30억 파라미터 특화 모델, OCR 벤치마크서 프런티어 API 전부 제쳤다
모델의 학습 이력을 실제 배포될 작업에 가깝게 옮기면 파라미터 수가 더는 성능을 가르는 결정 변수가 아니라는 분석이 허깅페이스 블로그에 공개됐다. AI 기업 Dharma는 30억 파라미터 특화 모델이 한 기업용 OCR 벤치마크에서 시험한 모든 상용 프런티어 API를 제쳤고, 운영 비용은 약 50분의 1 수준이었다고 밝혔다.
Dharma는 지난 4월 구조화 OCR을 위한 특화 소형 언어모델 두 종 'DharmaOCR'을 벤치마크 및 논문과 함께 공개했으며, 모델과 벤치마크는 허깅페이스에서 내려받을 수 있다. 이번 글은 그 결과에서 특화와 분포 정렬, 파라미터 규모의 관계라는 한 가지 전략적 함의를 떼어내 다룬 것이다.
지난 3년간 기업 AI 전략은 '가장 안전한 선택은 대체로 이용 가능한 가장 큰 프런티어 모델'이라는 가정 위에서 움직였다. 성능이 파라미터 수에 비례해 올라가는 듯 보였고, 프런티어 업체들이 주요 벤치마크를 줄곧 주도했기 때문이다. GPT-4가 모든 소형 모델을 앞섰고, 이 패턴은 Claude 3와 Gemini 1.5, 2025년의 각 프런티어 출시로 이어졌다.
Dharma는 이 비교 집단에서 빠진 것이 '특화 모델'이라고 지적했다. 더 작은 프런티어 모델이 아니라, 일련의 파인튜닝 단계를 거쳐 작은 베이스 모델의 학습 이력을 배포될 도메인 쪽으로 의도적으로 옮긴 모델을 말한다.
검증에 쓰인 벤치마크는 인쇄 문서와 필기 텍스트, 법률 및 행정 기록에 걸친 브라질 포르투갈어 OCR이라는 도메인 특화 평가였다. 편집거리 유사도와 n-그램 중첩을 합친 종합 점수에서 특화 30억 파라미터 모델은 0.911로 1위를 차지했다. 가장 가까운 프런티어 대안인 클로드 오푸스 4.6은 0.833, 그 뒤로 제미나이 3.1 프로 0.820, GPT-5.4 0.750, 구글 비전 0.686, 구글 도큐먼트 AI 0.640, GPT-4o 0.635, 아마존 텍스트랙트 0.618, 미스트랄 OCR 3 0.574 순이었다.
특화 모델과 클로드 오푸스 4.6의 점수 차는 약 8%포인트로, 비교에서 인접 순위 사이의 어떤 격차보다도 컸다. 비용 격차는 더 벌어졌다. 특화 30억 파라미터 모델은 100만 페이지당 운영 비용이 클로드 오푸스 4.6의 약 52분의 1로, 추론 인프라 비용과 공개된 API 가격을 견줘 산출한 수치다.
생산 환경 안정성에서도 이 모델이 앞섰다. 생성 결과가 스스로 반복되는 고리에 빠져 쓸 만한 출력을 내지 못하는 비율을 가리키는 '텍스트 디제너레이션' 지표에서 30억 파라미터 모델은 0.20%를 기록했고, 다음으로 낮은 특화 모델은 0.40%였다. 상용 API는 이 지표로 직접 측정되지 않았다.
Dharma는 이 결과가 모든 기업 AI 작업에 일반화된다고 주장하지는 않는다고 선을 그었다. 다만 이 벤치마크에서는 실험에 쓰인 가장 작은 특화 모델이 품질과 비용, 안정성 모든 차원에서 1위였다고 강조했다. 회사는 성능을 가른 변수가 파라미터를 어떻게 배분했는가만이 아니라 모델의 학습 이력을 작업 쪽으로 얼마나 옮겼는가이며, 이 변수가 파라미터 수를 포함한 어떤 변수보다 상대 성능을 더 안정적으로 예측했다고 설명했다.