메타, AI 커널 자동 최적화 에이전트 KernelEvolve 공개… 추론 처리량 60% 향상
메타(Meta)가 AI 인프라의 핵심인 하드웨어 커널 최적화를 자동화하는 에이전트 시스템 KernelEvolve를 공개했다. 이 시스템은 메타의 Ranking Engineer Agent 프로젝트의 일환으로, 다양한 하드웨어에서 AI 모델이 효율적으로 작동하도록 저수준 커널 코드를 자동으로 생성하고 최적화한다.
메타는 NVIDIA GPU, AMD GPU, 자체 설계한 MTIA 실리콘 칩, CPU 등 이기종 하드웨어를 대규모로 운영하고 있다. 각 하드웨어에서 AI 모델을 효율적으로 실행하려면 칩별로 최적화된 커널을 개발해야 하는데, 하드웨어 종류와 세대, 모델 아키텍처, 연산자 유형의 조합이 수천 가지에 달해 인력만으로는 대응이 불가능한 상황이었다.
KernelEvolve는 커널 최적화를 검색 문제로 접근한다. LLM 기반 에이전트가 수백 개의 대안 커널 구현체를 탐색하고, 전용 작업 하네스가 각 후보를 평가한 뒤 진단 정보를 LLM에 피드백하는 방식으로 연속적인 최적화 루프를 구동한다. 일반적인 LLM 에이전트의 단발성 코드 생성과는 근본적으로 다른 접근이다.
성능 개선 결과도 주목할 만하다. Andromeda 광고 모델의 경우 NVIDIA GPU에서 추론 처리량이 60% 이상 향상되었고, 메타의 자체 MTIA 칩에서는 광고 모델 훈련 처리량이 25% 이상 개선되었다. 기존에 전문 엔지니어가 수주에 걸쳐 수행하던 프로파일링, 최적화, 크로스 하드웨어 디버깅 작업이 수시간 내에 자동으로 완료된다.
KernelEvolve는 Triton, Cute DSL, FlyDSL 등 고수준 도메인 특화 언어뿐 아니라 CUDA, HIP, MTIA C++ 등 저수준 언어로도 커널을 생성할 수 있어 폭넓은 하드웨어를 지원한다. 메타의 MTIA 로드맵은 2년 내 4세대(MTIA 300~500)를 포괄하며, 각 세대마다 새로운 연산 능력과 메모리 대역폭 특성이 도입되어 커널 자동 최적화의 필요성이 더욱 커지고 있다.
현재 메타의 프로덕션 환경에서 KernelEvolve는 매일 수조 건의 추론 요청을 처리하는 코드를 최적화하고 있다. 개인화 추천부터 생성형 AI 어시스턴트까지 수십억 건의 AI 경험을 지원하는 인프라의 핵심 계층이다.
메타는 KernelEvolve가 AI 소프트웨어와 하드웨어의 관계를 근본적으로 변화시킨다고 평가했다. 과거 수동적이고 전문가 의존적이었던 커널 개발이 연속적이고 자동화된 프로세스로 전환되며, 새로운 칩이 도입될 때마다 최적화된 커널을 신속하게 생성할 수 있게 되었다.
이번 연구의 상세 내용은 논문 'KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta'에 담겨 있으며, 제53회 국제 컴퓨터 아키텍처 심포지엄(ISCA) 2026에서 발표될 예정이다.