엔비디아, 맞춤 정책 적용하는 멀티모달 안전 모델 '네모트론 3.5 콘텐츠 세이프티' 공개
엔비디아가 글로벌 기업용 AI를 겨냥한 멀티모달 콘텐츠 안전 모델 '네모트론 3.5 콘텐츠 세이프티(Nemotron 3.5 Content Safety)'를 공개했다. 텍스트와 이미지를 함께 평가하고, 조직별 맞춤 정책을 적용하며, 판정 근거를 추론 트레이스로 남길 수 있는 점이 이번 버전의 핵심 변화다.
가장 큰 변화는 통합 멀티모달 평가다. 이 모델은 사용자 프롬프트와 선택적 이미지, 선택적 어시스턴트 응답을 하나의 컨텍스트 윈도우로 받아 결합된 입력 전체에 대해 일관된 안전 판정을 내린다. 각 요소를 따로 채점하는 대신 함께 평가함으로써, 텍스트와 이미지의 상호작용이나 요청과 응답 사이에서만 드러나는 정책 위반을 한 번에 잡아낸다.
언어 지원도 폭넓다. 네모트론 3.5는 영어, 프랑스어, 스페인어, 독일어, 중국어, 일본어, 한국어, 아랍어, 힌디어, 러시아어, 포르투갈어, 이탈리아어 등 12개 언어를 명시적으로 학습했고, 기반이 된 구글 젬마 3 모델로부터 약 140개 언어에 대한 제로샷 일반화 능력을 물려받았다. 학습 데이터가 부족한 동남아시아어, 북유럽어, 자원이 적은 아프리카 언어권에서도 별도 미세조정 없이 다국어 전이의 이점을 누릴 수 있다.
맞춤 정책 적용은 3.5에서 추가된 가장 중요한 아키텍처 기능이다. 헬스케어 플랫폼과 금융 챗봇, 개발자 도구, 어린이 교육 앱은 위험 프로필이 서로 다른데, 네모트론 3.5는 입력과 함께 맞춤 정책 명세를 받아 내장된 분류 체계에만 의존하지 않고 해당 정책을 근거로 판정한다. 예컨대 데브옵스 도구에서 '프로세스를 종료한다(terminate)'는 표현이 폭력 범주를 잘못 발동시키지 않도록 특정 범주를 억제하거나, 조직 고유의 위험 범주를 새로 주입할 수 있다.
모든 안전 판정에는 선택적 'THINK 모드'를 통해 감사 가능한 추론 트레이스를 붙일 수 있다. 활성화하면 모델이 안전 또는 위험 라벨과 위반 범주를 내놓기 전에 단계별 추론 과정을 출력한다. 이 기록은 규제 산업의 의사결정 근거 문서화, 사람의 검토, 맞춤 정책의 반복 개선에 활용된다. 지연이 중요한 경우에는 THINK 모드를 꺼서 기존의 저지연 이진 판정으로 돌아갈 수 있다.
모델은 구글 젬마 3 4B IT(40억 파라미터)를 기반으로 하며 128K 컨텍스트 윈도우를 제공한다. 엔비디아는 여기에 LoRA 어댑터를 붙여 안전 분류 동작을 추가하면서도 8GB 이상 VRAM GPU에서 실시간으로 돌릴 만큼 작은 크기를 유지했다. 안전 분류 체계는 MLCommons 기준에 맞춘 13개 핵심 범주와 10개 세부 범주로 구성된 이지스(Aegis) 2.0 프레임워크를 따르며, 출력은 저지연 이진 판정, 범주 포함 판정, THINK 모드의 세 가지 모드를 지원한다.
추론이 지연을 유발할 수 있다는 점은 2단계 압축 방식으로 해결했다. 1단계에서는 Qwen 397B 같은 더 크고 강력한 모델로 프롬프트와 이미지, 응답을 바탕으로 사고연쇄(chain-of-thought) 트레이스를 생성하되, 오분류를 막기 위해 정답 라벨을 함께 제공한다. 2단계에서는 Qwen 80B 같은 모델로 이 트레이스를 3문장 이내로 다시 쓰게 한다. 실험 결과 생성된 추론 트레이스 대부분이 3문장 이하였다.
엔비디아는 이번에 학습에 쓰인 안전 데이터셋도 함께 공개했다. 대부분의 오픈소스 안전 모델이 학습·평가 데이터를 제공하지 않고, 특히 이미지나 영상이 제약적 라이선스에서 파생되는 멀티모달 영역에서는 이런 공개가 더 드물다는 점에서 의미가 있다. 공개된 데이터셋은 멀티모달·다국어로 구성되며 모델 학습에 사용된 안전 추론 트레이스를 포함한다.