엔비디아 네모트론 3 울트라, 아마존 세이지메이커 점프스타트서 원클릭 배포 지원
AWS가 엔비디아의 오픈 대규모 언어모델 '네모트론 3 울트라(Nemotron 3 Ultra)'를 아마존 세이지메이커 점프스타트에서 출시 당일(day-zero) 원클릭으로 배포할 수 있게 됐다고 밝혔다. 네모트론 3 울트라는 장시간 자율 에이전트의 프런티어 추론과 오케스트레이션을 위해 설계된 오픈 모델로, 에이전트 워크로드에서 추론 속도를 5배 높이고 비용을 최대 30%까지 낮춘다. 모델은 NVFP4 포맷에 최적화돼 더 빠르고 비용 효율적으로 호스팅된다.
네모트론 3 울트라는 총 5,500억 개 파라미터 가운데 550억 개를 활성화하는 오픈 LLM이다. 하이브리드 트랜스포머-맘바 전문가혼합(MoE) 구조를 채택해, 동급 품질의 밀집(dense) 모델 대비 일부 연산 비용만으로 프런티어 수준의 지능을 제공하도록 설계됐다. 컨텍스트 길이는 최대 100만 토큰까지 지원하며, 텍스트를 입력받아 텍스트를 출력하고 정밀도는 NVFP4를 사용한다.
AWS는 에이전트형 AI에 전용 모델이 필요한 이유를 설명했다. 에이전트는 한 번 답하고 끝나는 것이 아니라 계획을 세우고 도구를 호출하며, 하위 에이전트에 작업을 위임하고 결과를 점검하면서 수백 번의 턴에 걸쳐 작업을 이어간다. 매 단계마다 토큰과 연산이 늘어나기 때문에, 유의미한 정확도에서의 작업 완료율, 완료까지 걸리는 시간, 작업당 비용이 중요한 지표가 된다.
네모트론 3 울트라는 이 문제를 정면으로 겨냥한다. MoE 구조 덕분에 순전파(forward pass)마다 5,500억 파라미터 중 550억만 활성화해, 100만 토큰 규모의 긴 컨텍스트에서도 높은 처리량을 유지한다. 이를 통해 에이전트가 수백 턴에 걸친 계획·도구 호출·자기수정 루프를 일관성을 유지하고 비용을 관리하면서 지속할 수 있다.
활용처로는 지속적인 다단계 추론이 필요한 작업이 꼽힌다. 여러 하위 에이전트를 조율하고 긴 도구 호출 사슬에서 상태를 관리하는 에이전트 오케스트레이터, 대규모 저장소 전반에서 코드를 생성·테스트·디버그·반복하는 코딩 에이전트, 여러 출처의 정보를 종합하며 긴 컨텍스트에서 일관된 추론을 이어가는 딥 리서치, 의사결정 분기와 오류 복구를 포함한 다단계 업무를 자동화하는 복잡한 기업 워크플로우 등이다.
배포는 세이지메이커 점프스타트의 원클릭 방식으로 이뤄져 인프라를 직접 관리하거나 서빙 프레임워크를 구성할 필요가 없다. 이용하려면 AWS 계정과 점프스타트에 맞는 권한, GPU 인스턴스에 대한 충분한 서비스 쿼터가 필요하다. 다만 모델을 배포하면 실행 중인 동안 과금되는 세이지메이커 엔드포인트가 생성되며, 고성능 GPU 인스턴스는 시간당 수 달러가 들 수 있어 작업이 끝나면 엔드포인트를 삭제하는 것이 좋다.