젯브레인스, 토큰당 2.5B만 활성화하는 12B MoE 코드 모델 '멜룸2' 오픈소스 공개
젯브레인스가 자연어와 코드를 함께 학습한 120억(12B) 파라미터 규모의 전문가 혼합(MoE) 모델 '멜룸2(Mellum2)'를 공개했다. 아파치 2.0 라이선스로 허깅페이스에 공개돼 누구나 내려받아 쓸 수 있다.
멜룸2의 핵심은 효율이다. 전체 120억 파라미터를 갖췄지만 토큰을 처리할 때마다 그중 25억(2.5B) 파라미터만 활성화한다. 이 덕분에 높은 처리량과 낮은 지연이 필요한 추론 작업에 적합하며, 비슷한 크기의 오픈 모델과 견줄 만한 벤치마크 성능을 내면서도 추론 속도는 2배 이상 빠르다고 회사는 밝혔다.
멜룸은 원래 코드 자동완성 모델로 출발했다. 멜룸2는 그 기반을 넓혀 자연어와 소프트웨어 엔지니어링 전반의 작업까지 다루되, 효율적인 추론과 배포 용이성에 초점을 유지했다.
젯브레인스는 최신 AI 시스템이 점점 더 여러 번의 모델 호출에 의존한다고 설명했다. 라우팅, 검색, 요약, 계획, 검증, 도구 사용 같은 작업이 그것인데, 상당수는 지연에 민감하면서도 가장 큰 모델까지 동원할 필요는 없다. 멜룸2는 바로 이런 작업을 겨냥한다.
MoE 구조는 모델 전체 용량은 높게 유지하면서 토큰마다 일부 파라미터만 활성화한다. 그 결과 추론이 더 효율적이고 실시간 작업의 서빙 비용을 줄일 수 있다. 멜룸2는 멀티모달 대신 텍스트와 코드에 의도적으로 집중해 소프트웨어 엔지니어링 작업에 알맞게 작고 효율적인 형태를 유지했다.
회사가 제시한 주요 활용처는 네 가지다. 먼저 라우팅·오케스트레이션으로, 프롬프트 분류와 도구 선택, 중간 제어 흐름 단계에 쓰는 경량 모델로 적합하다. RAG 파이프라인에서는 컨텍스트 압축과 요약, 검색 후처리 같은 지연에 민감한 작업에 알맞다.
또 계획·검증·변환·컨텍스트 준비 같은 에이전트의 하위 작업(서브 에이전트)에 멜룸2를 투입하면 중간 단계마다 더 큰 모델을 부를 필요가 줄어든다. 개방형이고 서빙이 효율적이어서 독점 코드나 내부 데이터를 다루는 자가 호스팅 환경에도 배포할 수 있다.
젯브레인스는 멜룸2를 '포컬(focal) 모델'이라고 부른다. 더 큰 AI 시스템 안에서 자주 일어나는 작업을 빠르게 처리하도록 잘 다듬은 모델이라는 뜻이다. 스택의 모든 모델을 대체하려는 것이 아니라 스택 전체를 더 빠르고 저렴하며 통제하기 쉽게 만드는 것이 목표라고 회사는 강조했다. 아키텍처와 학습 설정, 벤치마크 등 세부 내용은 별도 기술 보고서에 담겼다.