제품2026년 5월 28일 AM 04:06

엔비디아, AI 팩토리 비전 발표하며 블랙웰 울트라로 토큰 비용 35분의 1 사례 제시

엔비디아가 추론 모델과 자율 에이전트 시대를 떠받칠 새 인프라 개념 'AI 팩토리'를 정리해 공개했다. 회사는 산업화 시대의 발전소가 에너지를 전기로 바꿨듯, AI 시대의 AI 팩토리는 에너지를 토큰으로 변환해 추론 모델·에이전트·지능 시스템의 '생산 단위'를 24시간 쉬지 않고 만들어낸다고 정의했다.

AI 팩토리의 경제는 무엇을 만드느냐로 정의된다. 초당 토큰 수, 와트당 토큰 수, 토큰당 비용, 가동률, 가동 시간이 핵심 지표다. 와트당 성능은 곧 매출로 직결되고, 토큰당 비용은 엔터프라이즈가 AI를 수익성 있게 확장할 수 있는지를 가른다고 엔비디아는 설명했다.

워크로드는 단순 프롬프트 응답이 아닌 '상시 추론' 형태로 바뀌었다. 자율 에이전트는 추론·계획·검색·도구 사용·데이터 조회·코드 작성·실행을 수행하고, 도메인 특화 도구를 익혀 자체 AI 스킬을 개발하는 하위 에이전트까지 만들어낸다. 이로 인해 워크플로는 길어지고 깊어지며, 단계마다 지연 시간을 빠듯하게 유지해야 한다.

이런 워크로드를 떠받치기 위해 AI 팩토리는 모델·컴퓨트·네트워킹·메모리·소프트웨어·스토리지·전력·냉각을 한 묶음으로 설계해야 한다. 추론은 풀머신을 가로지르는 실시간 오케스트레이션 문제가 되며, 요청 라우팅·메모리 관리·서비스 조정·지연-처리량 균형이 곧 팩토리의 생산성을 결정한다고 회사는 강조했다. 오픈 모델인 NVIDIA Nemotron 등은 엔터프라이즈 도메인에 맞춰 커스터마이즈해 AI 팩토리 위에서 운용된다.

성능 지표는 SemiAnalysis InferenceX 벤치마크로 구체화됐다. NVIDIA Blackwell Ultra GPU는 토큰당 비용이 가장 낮으며, NVIDIA GB300 NVL72 시스템은 이전 세대 대비 메가와트당 토큰 수를 50배 늘리고 Hopper 플랫폼 대비 토큰당 비용을 35분의 1로 낮췄다고 회사는 밝혔다. 장기 컨텍스트 추론과 대규모 추론 처리량을 조율하는 NVIDIA Dynamo 프레임워크가 가동률을 끌어올리는 역할을 맡는다.

차세대 NVIDIA Vera Rubin 플랫폼은 곡선을 한 단계 더 끌어올리도록 설계됐다. LPX와 결합해 와트당 성능을 최대 35배 높이고, 풀스택 최적화로 토큰 비용을 더 낮춰 팩토리 단위의 지능 생산 효율을 높이는 것이 목표다.

엔비디아는 글로벌 시스템 파트너 Cisco·Dell·HPE·Lenovo·Supermicro와 협업해 엔터프라이즈 데이터센터로 AI 인프라를 공급한다. 자사 내부에서도 자체 엔터프라이즈 AI 팩토리를 운영하며 엔지니어링·소프트웨어·운영 팀을 보조하는 수백 개의 자율 AI 에이전트를 활용하고 있다고 밝혔다. 금융·생명과학·제조·공공 등 모든 산업이 AI 팩토리를 직접 짓거나 임차할 필요가 있다는 것이 회사의 진단이다.

기가와트 규모로 확장할 경우를 위한 청사진도 함께 제시됐다. NVIDIA DSX 레퍼런스 디자인은 설계·시뮬레이션·운영·생태계 기술을 통합해 메가와트당 토큰 비용을 최소화하는 기가와트급 AI 팩토리를 지을 수 있도록 돕는다. NVIDIA Omniverse DSX Blueprint는 Omniverse·OpenUSD·SimReady 자산 기반의 디지털 트윈으로 시설·하드웨어·소프트웨어를 함께 모델링해, 구축 전 검증과 운영 중 최적화를 한 환경에서 수행할 수 있게 한다.

엔비디아, AI 팩토리 비전 발표하며 블랙웰 울트라로 토큰 비용 35분의 1 사례 제시

관련 기사