Hugging Face Open ASR 리더보드, Appen·DataoceanAI 비공개 데이터셋 11종 도입… 'benchmaxxing' 차단·기본 Average WER는 공개셋만 유지
Hugging Face가 운영하는 Open ASR Leaderboard에 Appen Inc.와 DataoceanAI가 제공한 고품질 영어 ASR 데이터셋이 추가됐다. 스크립트·대화형 음성을 다양한 액센트로 수록한 데이터셋을 비공개로 유지해 'benchmaxxing'(벤치마크 특화 최적화) 및 테스트셋 오염 위험을 차단한다는 취지다.
기본 'Average WER'는 공개 데이터셋만으로 계산하는 기존 방식을 유지한다. 사용자는 토글로 비공개 데이터셋을 포함시켜 영향을 확인할 수 있다.
2023년 9월 출시된 Open ASR Leaderboard는 누적 71만 회 이상 방문됐다. 모델·데이터셋 간 표기·구두점·대소문자 차이를 흡수하기 위해 Whisper 노멀라이저 기반의 표준화 로직과 Hub에 모은 단일 테스트셋 묶음을 사용하며, UI 코드와 평가 스크립트는 오픈소스로 제공된다.
신규 비공개 데이터셋은 Appen 7종과 DataoceanAI 4종으로 구성된다. Appen은 호주(1.42시간), 캐나다(1.53시간), 인도(1.02시간), 미국(1.45시간) 스크립트 음성 4종과 인도(1.37시간)·미국 US003(1.64시간)·미국 US004(1.65시간) 대화형 3종을 제공한다. DataoceanAI는 미국 스크립트(2.43시간)·영국 스크립트(2.43시간)·미국 대화형(8.82시간)·영국 대화형(5.96시간) 4종을 제공한다.
'Private data' 탭은 'Average WER'(데이터 제공사 평균의 매크로 평균), 'Avg Scripted', 'Avg Conversational', 'Avg US', 'Avg non-US' 등 5개 지표를 노출한다. 분할(split) 단위 점수는 의도적으로 표시하지 않아 특정 제공사·액센트에 최적화하는 행위를 방지한다. 'Rank Δ' 열은 기본 매크로 평균 설정 대비 순위 변화를 보여준다.
모델 평가는 기존과 같이 GitHub 풀리퀘스트 기반으로 진행된다. 모델 체크리스트 공개 후 공개 데이터셋 결과를 보고하면, 운영팀이 공개 결과를 검증하고 비공개 데이터셋 지표를 산출한 뒤 결과를 확정한다. 결과 대기 중인 사용자는 모델 카드에 YAML 파일을 추가해 데이터셋 페이지에서 미검증 셀프 리포트 리더보드에 등재할 수 있다.
데이터 제공사 의존 우려에 대해 Hugging Face는 Appen·DataoceanAI에 해당 데이터를 고객에게 제공하지 말 것을 요청했다고 밝혔다. 유사 분포 데이터로 인한 잠재적 우위는 잔존할 수 있어, 다수 제공사를 두는 방식으로 균형을 맞췄다. Hugging Face는 추가 데이터 제공사·평가셋을 'Private data' 탭에 더 받을 의향도 공개했다.
Hugging Face는 단일 'catch-all' ASR 모델은 존재하지 않으며, 모델별로 미국식 영어·다양한 액센트·다국어·속도·대화형 음성 등 강점이 다르다고 강조했다. 새 트랙과 토글 기능이 사용자가 자신의 애플리케이션에 가장 적합한 모델을 선별하는 데 도움이 되기를 기대한다고 밝혔으며, 실제 노이즈 환경을 더 잘 반영하는 평가 방식도 추후 공개를 예고했다.