엔비디아, 오픈소스 에이전트 'Hermes' RTX·DGX Spark에 최적화
엔비디아가 오픈소스 AI 에이전트 'Hermes'와 알리바바의 Qwen 3.6 대규모 언어모델(LLM)을 자사 RTX GPU와 DGX Spark 환경에 최적화했다고 발표했다. Hermes는 출시 3개월 미만에 깃허브 스타 14만 개를 넘겼고, 지난주 OpenRouter 기준으로 세계에서 가장 많이 쓰이는 에이전트가 됐다.
Hermes는 영국 AI 연구소 Nous Research가 신뢰성과 자기개선을 목표로 개발한 에이전트로, 공급사·모델 비종속(provider- and model-agnostic) 설계를 표방한다. 메시징 앱 연동, 로컬 파일·앱 접근, 24시간 상시 운용을 기본 기능으로 제공한다.
Hermes의 차별점은 네 가지로 정리된다. 첫째 '자기진화 스킬'은 에이전트가 복잡한 과제를 처리하거나 피드백을 받을 때마다 그 결과를 스킬로 저장해 시간이 지날수록 능력을 적응·개선한다. 둘째 '격리 서브에이전트'는 하위 과제마다 짧은 수명의 독립 워커를 두어 작은 컨텍스트 창에서도 작업을 조직화한다.
셋째는 신뢰성 우선 설계로, Nous Research가 함께 출시되는 모든 스킬·툴·플러그인을 큐레이션하고 스트레스 테스트한다. 그 결과 300억 파라미터급 로컬 모델로도 다른 에이전트 프레임워크에서 흔히 요구되는 디버깅 없이 동작한다는 게 회사 측 설명이다. 넷째 같은 모델을 여러 프레임워크에 적용한 개발자 비교에서 Hermes가 더 좋은 결과를 일관되게 보였다.
함께 최적화된 Qwen 3.6은 알리바바의 새 오픈웨이트 LLM 시리즈로, 27B와 35B 두 모델이 포함된다. Qwen 3.6 35B는 약 20GB 메모리에서 동작하면서도 70GB 이상 메모리를 요구하는 1200억 파라미터 모델 성능을 넘어선다는 게 엔비디아의 설명이다.
Qwen 3.6 27B는 더 많은 액티브 파라미터를 갖춘 신규 밀집(dense) 모델로, 4000억 파라미터급 Qwen 3.5 397B의 정확도에 도달하면서 크기는 16분의 1 수준이다. 엔비디아 텐서 코어 가속을 받아 고급 RTX GPU에서 빠르게 구동된다.
DGX Spark는 128GB 통합 메모리와 1페타플롭의 AI 성능을 갖춘 상시 가동형 단일 머신으로, 1200억 파라미터 MoE 모델을 종일 구동할 수 있다. Qwen 3.6 35B는 동등한 지능을 더 가벼운 풋프린트로 제공해 동시 작업 여유를 확보한다.
사용자는 깃허브의 Hermes 저장소에서 시작해 llama.cpp, LM Studio, Ollama 같은 런타임과 Qwen 3.6을 조합해 운용할 수 있다. Hermes Agent는 LM Studio와 Ollama 지원을 기본 탑재한다. DGX Spark는 엔비디아 제조 파트너 마켓플레이스에서 주문 가능하다.
추가 발표로, NVIDIA RTX PRO GPU는 llama.cpp에서 Qwen 3.6 모델 구동 시 토큰 생성 속도가 최대 3배 빨라진다. 구글 Gemma 4 26B·31B는 NVFP4 체크포인트로 제공되며 Multi-Token Prediction 드래프터와 결합하면 동일 출력 품질에서 최대 3배 빠른 추론이 가능하다. 미스트랄 Medium 3.5는 llama.cpp·Ollama 호환 업데이트로 RTX PRO와 DGX Spark에서 구동된다. 엔비디아 오픈소스 스택 NemoClaw는 윈도우 서브시스템 포 리눅스(WSL2)도 지원하기 시작했다.