구글, 오픈 모델 Gemma 4 공개… 31B 모델 Arena AI 3위, Apache 2.0 라이선스 전환
구글이 자사의 가장 강력한 오픈 모델인 Gemma 4를 공개했다. Gemma 4는 고급 추론과 에이전트 워크플로우에 최적화된 모델로, 파라미터 대비 업계 최고 수준의 지능을 제공한다. 구글에 따르면 Gemma 시리즈는 출시 이후 4억 회 이상 다운로드되었으며, 10만 개 이상의 파생 모델이 만들어졌다.
Gemma 4는 E2B, E4B, 26B MoE(혼합 전문가), 31B Dense 등 네 가지 크기로 출시된다. 31B Dense 모델은 Arena AI 텍스트 리더보드에서 오픈 모델 3위를 기록했고, 26B MoE 모델은 6위에 올랐다. 구글은 Gemma 4가 자기보다 20배 큰 모델을 능가하는 성능을 보인다고 밝혔다.
26B MoE 모델은 추론 시 전체 파라미터 중 38억 개만 활성화해 빠른 토큰 생성 속도를 제공하며, 31B Dense 모델은 bfloat16 비양자화 가중치 기준 80GB NVIDIA H100 GPU 1장에서 구동된다. 양자화 버전은 일반 소비자용 GPU에서도 실행할 수 있다.
엣지 디바이스용 E2B와 E4B 모델은 각각 20억, 40억 파라미터 수준의 연산량으로 추론을 수행한다. 두 모델 모두 비전과 오디오를 네이티브로 지원하며, 음성 인식과 이해 기능을 내장했다. 퀄컴, 미디어텍과 협력해 스마트폰, 라즈베리 파이, NVIDIA 젯슨 오린 나노 등에서 완전 오프라인으로 구동된다.
컨텍스트 윈도우는 엣지 모델이 128K, 대형 모델이 최대 256K 토큰을 지원해 리포지토리 전체나 긴 문서를 단일 프롬프트로 처리할 수 있다. 140개 이상의 언어를 네이티브로 학습했으며, 함수 호출, 구조화된 JSON 출력, 시스템 명령어를 기본 지원해 자율 에이전트 구축에 적합하다.
Gemma 4는 구글의 독점 모델 Gemini 3와 동일한 연구 기술을 기반으로 개발되었다. 이전의 제한적 라이선스에서 벗어나 Apache 2.0 라이선스로 전환해, 상업적 활용과 자유로운 배포가 가능해졌다. 구글은 이를 통해 개발자 생태계의 장벽을 낮추겠다고 밝혔다.
출시 첫날부터 Hugging Face, vLLM, Ollama, NVIDIA NIM, LM Studio 등 주요 도구와 플랫폼을 지원한다. 구글 AI 스튜디오에서 31B와 26B MoE 모델을, AI Edge Gallery에서 E4B와 E2B 모델을 바로 사용할 수 있다. 안드로이드 스튜디오의 에이전트 모드에서도 Gemma 4를 활용한 앱 개발이 가능하다.
Gemma 4는 NVIDIA 블랙웰 GPU부터 AMD ROCm 스택, 구글의 트릴리엄·아이언우드 TPU까지 다양한 하드웨어에 최적화되어 출시된다. 구글 클라우드의 Vertex AI, Cloud Run, GKE를 통한 대규모 배포도 지원한다.