목록으로
연구2026년 5월 11일 PM 09:38

Wired 칼럼 '엔비디아의 진짜 해자는 CUDA'… AMD ROCm과 인텔 oneAPI 대비 우위

와이어드(Wired)의 'Machine Readable' 칼럼 첫 회가 AI 시대 엔비디아의 진짜 해자가 GPU 칩이 아니라 CUDA 소프트웨어 플랫폼이라고 분석했다. 필자는 CUDA가 'Compute Unified Device Architecture'의 약자이지만 업계에서는 그냥 '쿠다'로 부른다고 적었고, 젠슨 황 CEO가 CUDA를 회사의 가장 소중한 '보물'로 표현했음을 인용했다.

칼럼은 OpenAI·앤트로픽·구글 등 프런티어 모델 기업들이 이렇다 할 해자를 갖지 못했지만 엔비디아는 다르다고 진단했다. 'We Have No Moat, and Neither Does OpenAI'라는 구글 내부 유출 메모로 시작된 해자 논쟁에서, 한때 DeepSeek 등장으로 일었던 짧은 패닉을 제외하면 오픈소스 모델이 폐쇄형 모델을 압도하지 못했다는 점도 함께 짚었다.

CUDA가 만드는 우위의 핵심은 병렬화라는 게 칼럼의 진단이다. 필자는 9×9 곱셈표 예시로 단일 코어 CPU가 81개 연산을 순차 처리하는 반면, 9코어 GPU는 각 코어가 한 열씩 맡아 9배 빠르게 끝낼 수 있다고 설명했다. 교환법칙(7×9=9×7)을 인식하도록 프로그래밍하면 81 연산이 45회로 줄어 작업량이 거의 절반이 된다며, 단일 학습 한 회에 1억 달러가 드는 시대에는 모든 최적화가 중요하다고 적었다.

CUDA의 기원에 대해서는 2000년대 초 스탠퍼드 박사과정생 이언 벅(Ian Buck)이 게이머로서 GPU에 매료된 뒤 그 구조를 범용 고성능 컴퓨팅에 전용할 수 있다는 사실을 발견하면서 시작됐다고 칼럼은 적었다. 벅은 'Brook'이라는 프로그래밍 언어를 만든 뒤 엔비디아에 합류해 존 니콜스(John Nickolls)와 함께 CUDA 개발을 이끌었다. 본래 비디오 게임 그래픽용 GPU 아키텍처가 AI 인프라의 기반이 된 셈이다.

성능 격차의 실측 사례로 필자는 자신이 머신러닝 프레임워크 PyTorch에서 3줄이면 끝나는 단순 행렬 곱셈을 CUDA로는 50줄 이상 적어야 했다고 밝혔다. DeepSeek 엔지니어들이 CUDA보다 더 아래 계층인 어셈블리 수준의 PTX에서 직접 작업해 성능을 극한까지 끌어올렸다는 사례도 들었다. 일반 개발자가 'Claude Max 플랜'만 손에 들고 GPU 커널을 손볼 수 있는 영역이 아니라는 표현도 등장했다.

경쟁 진영에 대한 평가는 부정적이다. AMD의 ROCm은 버그·호환성 이슈가 누적돼 서브레딧이 사실상 지원 게시판처럼 돌아간다고 칼럼은 적었고, 같은 종이 스펙으로도 CUDA 락인 때문에 AMD 칩이 엔비디아 칩보다 떨어진다고 봤다. 애플·AMD·퀄컴 등이 함께 주도한 오픈 표준 OpenCL은 사실상 자리 잡지 못했으며, 인텔이 마지막 분투로 내놓은 oneAPI 역시 2026년 시점에 CUDA의 지배를 흔들지 못했다는 진단이다.

도전자로는 애플 Swift와 LLVM의 설계자 크리스 라트너(Chris Lattner)가 이끄는 Modular가 거론됐다. 다만 AI 연구자 대다수가 C++ 한 줄도 쓰지 못하는 현실에서, 정확하게 GPU 커널을 작성할 수 있는 엔지니어는 극소수이며 그중 다수가 이미 엔비디아 소속이라는 점도 칼럼은 강조했다. 코딩 에이전트조차 커널 코드에서는 여전히 비틀거린다는 표현이 덧붙었다.

결론적으로 필자는 엔비디아를 AMD·인텔보다 애플에 가까운 회사로 규정했다. 애플의 안드로이드 대비 해자가 단지 아이폰이 아니라 iOS·앱스토어·개발자 생태계였듯, 엔비디아의 강점도 하드웨어 뒤에 자리한 소프트웨어 스택이라는 평가다. 칼럼은 산업이 당분간 엔비디아의 '공격적인 가격표'를 감수해야 할 것이라며, 이번 글이 'AI 가능 언어' 3부작 시리즈의 첫 편이라고 알렸다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사