코히어, 오픈소스 음성 인식 모델 Transcribe 출시… 14개 언어 지원, API 무료 제공
기업용 AI 기업 코히어(Cohere)가 첫 번째 음성 모델 Transcribe를 출시했다. 메모 작성이나 음성 분석 등에 활용할 수 있는 오픈소스 자동 음성 인식(ASR) 모델이다.
20억 파라미터의 비교적 가벼운 모델로, 자체 호스팅을 원하는 사용자가 일반 소비자급 GPU로 구동할 수 있다. 현재 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어, 중국어, 일본어, 한국어, 베트남어, 아랍어 등 14개 언어를 지원한다.
코히어에 따르면 Transcribe는 Hugging Face Open ASR 리더보드에서 평균 단어 오류율(WER) 5.42를 달성해, Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2, Qwen3-ASR-1.7B Speech 등을 제치고 1위를 기록했다.
인간 평가자가 정확성, 일관성, 사용성을 평가한 결과 다른 모델 대비 평균 61%의 승률을 기록했다. 다만 포르투갈어, 독일어, 스페인어 전사에서는 경쟁 모델에 뒤처지는 모습을 보였다.
처리 속도도 강점이다. 1분 만에 525분 분량의 오디오를 처리할 수 있어 동급 모델 중 높은 수준이다. 코히어는 자사 기업용 에이전트 오케스트레이션 플랫폼 North에 Transcribe를 통합할 계획이며, API를 통해 무료로 제공한다.
코히어는 올해 초 2025년 연간 반복 매출(ARR)이 2억 4000만 달러에 달한다고 투자자들에게 밝힌 것으로 전해졌다. CEO 에이단 고메즈(Aidan Gomez)는 IPO를 "곧" 진행할 수 있다고 언급한 바 있다.