엔비디아 블랙웰, 첫 에이전트 AI 인프라 벤치마크에서 선두 차지
아티피셜 애널리시스가 업계 첫 에이전트 AI 벤치마크 'AgentPerf'를 공개하고 1차 결과를 발표했다. 엔비디아 블랙웰 울트라 NVL72 플랫폼이 시험 대상 에이전트 AI 워크로드 전반에서 선두 성능을 기록했으며, 호퍼 세대 대비 메가와트당 20배 많은 에이전트를 구동했다.
엔비디아는 에이전트 AI가 대화형 AI와는 근본적으로 다른 워크로드라고 설명했다. 한 번의 챗봇 응답이 LLM 호출 한 번으로 끝나는 '단거리 달리기'라면, 에이전트는 목표를 여러 단계로 쪼개 작업이 끝날 때까지 이어가는 '릴레이'에 가깝다는 것이다.
그 결과 수십에서 수백 개의 LLM 호출이 연쇄적으로 이어지고, 각 호출은 점점 커지는 맥락을 다음 호출로 넘긴다. 단계마다 코드 컴파일·실행, 데이터베이스 검색, 웹 브라우징 같은 도구 호출이 끼어든다. 엔비디아는 복잡성이 더해지는 것이 아니라 곱해진다고 강조했다.
기존 AI 추론 벤치마크는 LLM 호출 한 번, 즉 단일 요청에 LLM이 얼마나 빨리 응답하고 시스템이 동시 요청을 몇 개나 처리하는지를 측정한다. 엔비디아는 이런 방식이 연쇄 호출과 도구 호출 지연, 늘어나는 맥락이 시스템을 압박하는 에이전트 워크로드에는 맞지 않는다고 지적했다.
AgentPerf는 이번 1차 라운드에서 오늘날 가장 강력한 에이전트를 구동하는 프런티어급 모델을 대표해 대형 MoE 모델 '딥시크 V4 프로'로 에이전트 성능을 측정했다. 이 워크로드에서 엔비디아 GB300 NVL72가 호퍼 기반 HGX H200 시스템 대비 메가와트당 최대 20배 많은 에이전트를 구동하며 가장 높은 성능을 냈다.
성능 우위는 풀스택 전반의 설계 최적화에서 나온다. GB300 NVL72는 72개 GPU를 단일 랙 규모 시스템으로 연결해 딥시크 V4 프로 같은 대형 MoE 모델의 실행을 효율적으로 분산한다. CUDA 커널은 통신과 연산을 겹쳐 처리해 전문가 간 조율 비용을 지연 시간에 더하지 않고 흡수하며, 텐서RT LLM은 입력 처리와 출력 생성을 분리해 동시 에이전트 세션이 늘어도 효율을 유지한다.
AgentPerf는 실제 코딩 에이전트의 작업 궤적을 토대로 만들어졌다. 에이전트가 과제를 받아 파일을 읽고 코드를 작성·수정하며 명령을 실행하고 결과에 따라 반복하는 과정을, 12개 이상 프로그래밍 언어의 실제 공개 코드 저장소에서 가져왔다.
벤치마크는 응답성과 출력 토큰 속도에 정해진 기준을 충족하면서 플랫폼이 동시에 몇 개의 에이전트 과제를 처리할 수 있는지를 측정한다. 도구 호출은 실제로 실행하지 않고 대표적인 CPU 처리 시간으로 시뮬레이션해, 결과 차이가 가속 컴퓨팅 성능만 반영하도록 했다.
베이스텐, 딥인프라, 투게더 AI 등 주요 추론 제공사는 이미 엔비디아 블랙웰에서 딥시크 V4 프로 같은 프런티어 모델로 에이전트 워크로드를 서비스하고 있다. 투게더 AI는 AI 코딩 플랫폼 커서의 실시간 추론을, 딥인프라는 자동차 딜러용 AI 워크포스 플랫폼 팸닷에이아이를 블랙웰에서 구동한다. 엔비디아는 차세대 베라 루빈 아키텍처가 본격 양산에 들어갔다고 덧붙였다.