목록으로
연구2026년 6월 16일 AM 06:35

AWS, 구글 딥마인드 오픈웨이트 모델 'Gemma 4' 3종 아마존 베드락서 제공

AWS가 머신러닝 블로그를 통해 구글 딥마인드가 만든 Gemma 4 패밀리를 아마존 베드락에서 제공한다고 발표했다. Apache 2.0 라이선스로 공개된 오픈웨이트 모델로, 파라미터당 지능(intelligence-per-parameter)에 초점을 맞춰 폭넓은 배포 시나리오를 겨냥해 설계됐다. 패밀리는 instruction-tuned 변형 세 가지인 Gemma 4 31B, Gemma 4 26B-A4B, Gemma 4 E2B로 구성되며 dense와 전문가 혼합(MoE) 구조를 아우른다. 세 변형 모두 내장 추론과 네이티브 함수 호출, 텍스트·이미지 멀티모달 입력을 지원한다.

독립 벤치마크도 이 모델의 파라미터당 지능 지향을 뒷받침한다. 아티피셜 애널리시스는 Gemma 4 31B의 인텔리전스 인덱스를 39로 측정했는데, 이는 4B~40B 오픈웨이트 등급의 중앙값 15를 크게 웃도는 수치다.

오픈웨이트 기반 모델을 프로덕션에 도입하려는 기업은 선도 모델에 접근하면서도 데이터 보호와 규제 정합성, 운영 통제를 포기하지 않아야 하는 트레이드오프에 늘 직면한다. AWS는 베드락이 이 트레이드오프를 없앤다고 강조했다. 완전관리형 서비스로 선도 오픈웨이트 모델을 제공하되 추론은 전적으로 AWS가 운영하는 인프라에서 돌아가며, 입력 프롬프트와 완성 결과는 어떤 모델 학습에도 쓰이지 않고 콘텐츠는 제3자와 공유되지 않는다.

패밀리는 2.3B 유효 파라미터 소형 모델부터 30.7B 파라미터 dense 모델까지 걸쳐 있어 비용과 지연 요구에 맞춰 변형을 고를 수 있다. 모든 변형이 내장 추론 모드와 에이전트 워크플로용 네이티브 함수 호출, 텍스트·이미지 결합 멀티모달 입력을 지원하고, 35개 이상 언어를 기본 지원하며 사전학습은 140개 이상 언어에 걸쳐 이뤄졌다. 오픈웨이트인 만큼 아키텍처와 학습 방법을 독립적으로 평가하고 자체 워크로드로 벤치마크하며 필요하면 독자 데이터로 파인튜닝할 수 있다.

세 변형의 사양은 용도별로 나뉜다. Gemma 4 31B는 모델 ID가 google.gemma-4-31b인 dense 구조로 파라미터 30.7B, 컨텍스트 256K 토큰이다. Gemma 4 26B-A4B는 google.gemma-4-26b-a4b의 MoE 구조로 총 25.2B 가운데 토큰당 3.8B만 활성화되며 컨텍스트는 256K 토큰이다. Gemma 4 E2B는 google.gemma-4-e2b의 dense(PLE) 구조로 총 5.1B 중 유효 2.3B, 컨텍스트 128K 토큰이다. 세 모델 모두 Standard·Priority·Flex 서비스 티어를 제공한다.

용도별 선택 기준도 제시됐다. 단일 dense 모델로 추론이나 코딩 비중이 큰 작업에는 패밀리에서 가장 큰 dense 변형인 31B가, 높은 처리량에서 비용에 민감하면서 폭넓은 지식이 필요한 작업에는 4B급 dense 수준의 비용·지연으로 더 큰 모델의 지식 용량을 유지하는 26B-A4B가 권장된다. 지연에 민감하거나 온디바이스 방식, 멀티모달 분류 작업에는 가장 작고 빠른 E2B가 적합하며 이 변형은 reasoning_effort를 high로 설정하도록 안내됐다.

아키텍처 측면에서 모든 변형은 로컬 어텐션과 글로벌 어텐션을 교차하는 하이브리드 어텐션 설계를 써, 작은 메모리 사용량을 유지하면서 31B와 26B-A4B에서 최대 256K 토큰의 긴 컨텍스트를 지원한다. 26B-A4B는 총 25.2B 파라미터 중 토큰당 3.8B만 활성화하는 MoE 모델이고, E2B는 레이어별 임베딩(PLE)으로 유효 파라미터 수를 총 5.1B 중 2.3B로 작게 유지해 메모리와 연산 비용을 낮춘다.

Gemma 4는 내장 추론 모드를 갖춰 활성화하면 최종 답을 내놓기 전 내부 사고 과정을 출력한다. 다만 멀티턴 대화에서는 이전 턴의 추론 항목이 아니라 최종 답만 다시 모델에 보내야 한다. 이전 추론을 모델에 되돌려 보내면 응답 품질이 떨어질 수 있으므로, 추론 내용은 자체 로그나 감사 기록에는 남기되 다음 턴에 보내는 히스토리에서는 제거해야 한다.

Gemma 4는 베드락의 차세대 추론 엔진을 위한 OpenAI 호환 API인 bedrock-mantle 엔드포인트로 접근한다. 엔드포인트 URL은 https://bedrock-mantle.{region}.api.aws/openai/v1이며 Chat Completions와 Responses API를 노출한다. OpenAI 파이썬·타입스크립트 SDK와 같은 인터페이스를 써 기존 SDK 사용 팀은 base URL과 모델 ID만 바꾸면 전환할 수 있고, 베드락 API 키와 프로젝트, 클라이언트 측 툴 호출도 지원한다. 사용하려면 bedrock-mantle 엔드포인트 추론 권한이 필요하며 AWS 관리형 정책 AmazonBedrockMantleInferenceAccess를 IAM 주체에 붙이는 것이 가장 간단하다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사