IBM Granite 4.1 LLM 패밀리 공개… 3B/8B/30B 디코더-온리·15T 토큰·512K 컨텍스트, 8B가 32B-A9B MoE 능가
IBM Granite 팀이 디코더-온리 밀집(dense) LLM 패밀리 Granite 4.1을 공개했다. 3B·8B·30B 세 가지 크기로 제공되며, 약 15조(15T) 토큰을 5단계 사전학습 파이프라인으로 학습했다. 컨텍스트 윈도우는 최대 512K 토큰까지 확장됐고, 모든 모델은 Apache 2.0 라이선스로 배포된다.
추가 정제 과정에서는 약 410만 건의 큐레이션 샘플로 지도학습 미세조정(SFT)을 수행했고, 강화학습은 Yu et al.(2025)의 DAPO 손실을 적용한 온폴리시 GRPO 방식을 채택했다. 그 결과 8B instruct 모델이 더 단순한 밀집 구조와 적은 파라미터로도 이전 세대 Granite 4.0-H-Small(32B-A9B MoE)을 능가하거나 동등한 성능을 보였다.
아키텍처는 디코더-온리 밀집 트랜스포머를 기반으로, Grouped Query Attention(GQA), Rotary Position Embeddings(RoPE), SwiGLU 활성화, RMSNorm, 그리고 입출력 임베딩 공유 등을 핵심 설계 요소로 채택했다. 세 가지 모델은 동일한 학습 파이프라인과 데이터 전략을 공유하며, 차이는 아키텍처 차원에만 있다.
사전학습은 5단계 구조다. Phase 1(10T 토큰)은 CommonCrawl 약 59%, 코드 약 20%, 수학 약 7%, 테크니컬 약 10.5%, 다국어 약 2%, 도메인 특화 약 1.5%의 일반 혼합 데이터로 광범위한 언어 이해를 형성한다. Phase 2(2T 토큰)는 수학 비중을 약 35%(Phase 1 대비 5배), 코드 비중을 약 30%(1.5배)까지 끌어올려 추론 능력을 강화한다.
Phase 3(2T 토큰)은 지수 감쇠 학습률 스케줄과 균형 잡힌 고품질 혼합 데이터를 적용하며 chain-of-thought·합성 instruction 데이터가 본격 도입된다. Phase 4(0.5T 토큰)는 학습률을 0까지 선형 감쇠시키며 가장 고품질 데이터에 집중하는 정제 단계다. CommonCrawl-HQ 약 40%, 코드 약 20%, 수학 약 20%로 데이터 비중이 재편된다.
마지막 Phase 5인 Long Context Training(LCE)은 컨텍스트 윈도우를 4K에서 512K까지 단계적으로 확장한다. 32K 확장과 128K 확장은 Phase 4와 동일한 데이터 혼합을 사용하고, 512K 확장은 8B·30B 모델에 한해 책 80%·코드 저장소 20% 혼합을 적용한다. LCE는 1e-4에서 0으로 감쇠하는 지수 학습률을 쓰며, 단계마다 모델 머지를 수행해 짧은 컨텍스트 성능 저하를 막는다.
RULER 벤치마크 기준 베이스 모델 점수는 32K/64K/128K 순으로 granite-4.1-3b-base가 75.0/66.6/58.0, granite-4.1-8b-base가 83.6/79.1/73.0, granite-4.1-30b-base가 85.2/84.6/76.7을 기록했다. 컨텍스트가 길어질수록 모델 크기에 따른 성능 격차가 확대되는 양상이다.
지도학습 미세조정 단계에서는 LLM-as-Judge 프레임워크와 규칙 기반 필터링을 결합한 데이터 품질 파이프라인을 적용했다. 응답은 instruction following, correctness, completeness, conciseness, naturalness, calibration의 6개 가중 차원으로 평가되며, 환각·잘못된 전제·계산 오류 등 중대 결함이 발견되면 점수와 무관하게 자동 거부 처리된다. RAG 시나리오에서는 검색 컨텍스트에 근거하지 않은 응답을 환각으로 표시하고, 도구 호출 출력은 허용된 도구·파라미터 스키마와 대조해 검증한다. 마지막으로 글로벌 디듀플리케이션을 통해 데이터셋 전반의 중복을 제거한다.