연구2026년 6월 5일 AM 02:08

엔비디아, 40개 언어를 단일 모델로 처리하는 음성인식 '네모트론 3.5 ASR' 공개

엔비디아가 다국어 음성인식의 고질적 문제를 하나의 모델로 묶겠다며 음성인식(ASR) 모델 '네모트론 3.5 ASR'을 공개했다. 6억 파라미터 단일 체크포인트 하나로 영어(미국·영국), 스페인어, 독일어, 프랑스어, 한국어, 일본어, 중국어 등 40개 언어·로케일을 전사한다. 언어별로 모델을 따로 배포하거나 교체할 필요가 없다.

기존 다국어 음성인식은 여러 모델이나 벤더 API를 이어 붙여야 했고, 실시간 처리와 정확도가 서로 상충했으며, 구두점과 대소문자를 복원하려면 별도 후처리 모델이 필요했고, 입력 언어를 미리 알려줘야 하는 한계가 있었다. 엔비디아는 이 네 가지 문제를 한 모델로 해결하는 것을 목표로 삼았다고 밝혔다.

모델은 24개 층의 Cache-Aware FastConformer 인코더와 RNNT(순환신경망 트랜스듀서) 디코더로 구성된다. FastConformer는 선형적으로 확장되는 어텐션을 갖춘 효율형 구조이며, '캐시 인식' 인코더는 이전 프레임의 셀프 어텐션과 합성곱 활성값을 캐시에 저장해 새로 들어온 오디오에서 실제로 새로운 부분만 계산한다. 덕분에 오디오 프레임을 겹치지 않고 한 번씩만 처리해 연산량과 지연을 크게 줄인다.

출력은 별도 후처리 없이 대소문자와 마침표·쉼표·물음표가 갖춰진 그대로 나온다. 언어 조건도 선택할 수 있어, 입력 언어를 알 때는 해당 언어를 지정해 정확도를 높이고, 모를 때는 자동 감지 모드로 모델이 스스로 언어를 판별해 전사한다. 영어와 스페인어를 한 문장 안에서 오가는 고객 상담 통화 같은 상황을 염두에 둔 설계다.

스트리밍 음성인식의 지연과 정확도 사이의 균형은 어텐션 컨텍스트 크기로 직접 조절한다. 같은 체크포인트에서 80밀리초의 초저지연 설정부터 1.12초의 고정확도 설정까지 추론 시점에 동작점을 고를 수 있고, 재학습은 필요 없다. 초저지연 설정은 음성 에이전트에, 균형 설정은 실시간 자막 같은 용도에 맞춰져 있다.

모델은 NeMo 체크포인트 형태로 제공되며, NeMo 저장소를 내려받아 스트리밍 추론 스크립트에 오디오를 연결하면 바로 쓸 수 있다. 오디오는 모노 채널 wav 파일을 사용하고, 파일 경로와 길이, 참조 전사를 담은 표준 NeMo 형식의 매니페스트를 입력으로 받는다. 모델은 문장이 끝날 때마다 언어 태그를 예측해 붙이며, 옵션으로 이 태그를 떼어내 가독성을 높일 수 있다.

네모트론 3.5 ASR은 기본 상태로도 강력하지만, 학습 데이터가 언어별로 불균형해 데이터가 적은 언어에는 개선 여지가 남아 있다. 엔비디아는 몇 시간 분량의 도메인 음성과 적절한 레시피만으로 상당한 격차를 좁힐 수 있다며, 중간 자원 언어인 그리스어와 불가리아어를 대상으로 한 파인튜닝 예제를 함께 공개했다.

파인튜닝은 다섯 단계로 요약된다. 대상 언어의 압축된 음성 데이터를 학습기에 연결하고, 기본 체크포인트에서 동일한 Cache-Aware FastConformer-RNNT 레시피로 각 클립의 언어 태그를 조건 삼아 학습한 뒤, 실제 배포할 저지연 설정 그대로 한 번도 본 적 없는 평가셋에서 측정하고, 약한 언어에 데이터를 더해 다시 학습한 다음, 마지막으로 파인튜닝된 체크포인트를 내보내 배포한다. 예제에서는 Granary·Common Voice·FLEURS 등 공개 코퍼스에서 약 2,000시간 분량을 모아 사용했다.

엔비디아, 40개 언어를 단일 모델로 처리하는 음성인식 '네모트론 3.5 ASR' 공개

관련 기사