연구2026년 4월 8일 PM 07:04

Z AI, 오픈소스 코딩 모델 GLM-5.1 공개… SWE-Bench Pro 58.4점으로 GPT-5.4·Opus 4.6 추월

중국 AI 기업 Z AI(즈푸 AI)가 새로운 오픈소스 코딩 모델 GLM-5.1을 공개했다. 이 모델은 프론티어 경쟁 모델들과 코딩 벤치마크에서 대등한 성능을 보이며, 최대 8시간에 달하는 장시간 자율 에이전트 세션을 위해 설계됐다.

GLM-5.1은 SWE-Bench Pro에서 58.4점을 기록하며 GPT-5.4와 Claude Opus 4.6을 모두 상회했다. 오픈소스 모델이 주요 코딩 벤치마크에서 1위를 차지한 것은 이례적인 성과로 평가된다.

Z AI는 GLM-5.1이 에이전트 태스크에서 훨씬 긴 시간 동안 효과적으로 작동할 수 있다고 밝혔다. 실제 테스트에서 이 모델은 8시간 동안 인간의 개입 없이 파일 브라우저, 터미널, 게임을 포함한 완전한 리눅스 데스크톱 웹 애플리케이션을 구축해냈다.

코딩 성능뿐 아니라 디자인 영역에서도 두각을 나타냈다. Arcada Labs의 Design Arena 테스트에서 GLM-5.1은 창의적 웹 디자인 부문 2위를 기록했으며, 1위는 Claude Opus 4.6이 차지했다.

Z AI는 장기 태스크 수행 능력을 스케일링 법칙 이후 가장 중요한 곡선으로 규정했다. 모델의 규모를 키우는 것뿐 아니라 얼마나 오래, 얼마나 복잡한 작업을 자율적으로 처리할 수 있는지가 차세대 AI 경쟁의 핵심이 될 것이라는 분석이다.

이번 공개는 중국 AI 기업들이 프론티어 모델과의 격차를 빠르게 좁히고 있음을 보여주는 사례다. 오픈소스 모델이 이 수준의 코딩 성능을 달성했다는 점에서 오픈소스와 상용 모델 간 성능 차이가 급격히 줄어들고 있다는 평가가 나온다.