제품2026년 4월 26일 PM 07:25

'Anil-matcha/Open-Generative-AI' 깃허브 공개… 200+ 모델 오픈소스 미디어 스튜디오, 4개 스튜디오·로컬 sd.cpp 추론 지원

GitHub Trending에 'Anil-matcha/Open-Generative-AI'가 올랐다. Higgsfield AI, Freepik, Krea, Openart AI의 오픈소스·구독 없는 대안으로 포지셔닝된 무료 데스크톱 앱이며, 200개 이상의 이미지·영상 생성 모델을 통합 인터페이스에서 다룰 수 있는 점이 특징이다.

Open Generative AI는 4개 스튜디오로 구성된다. Image Studio는 50개 이상의 텍스트-투-이미지와 55개 이상의 이미지-투-이미지 모델을 다루며 참조 이미지 유무에 따라 모델 세트를 자동 전환한다. Video Studio는 40개 이상의 텍스트-투-비디오 모델과 60개 이상의 이미지-투-비디오 모델을 지원한다. Lip Sync Studio는 9개 모델로 초상화 + 오디오 → 토킹 비디오, 비디오 + 오디오 → 립싱크 비디오 두 모드를 제공하며, Cinema Studio는 렌즈·초점거리 등 프로 카메라 컨트롤을 갖춘 사진처럼 정교한 시네마틱 샷용 인터페이스다.

지원 모델 라인업도 광범위하다. README는 Flux, Nano Banana, Midjourney, Kling, Sora, Veo, Seedream, Infinite Talk, LTX Lipsync, Wan 2.2 등을 거론하며 텍스트-투-이미지, 이미지-투-이미지, 텍스트-투-비디오, 이미지-투-비디오, 오디오 기반 립싱크를 한 자리에서 다룬다고 안내한다. 멀티 이미지 입력은 Nano Banana 2 Edit, Flux Kontext Dev, GPT-4o Edit 등 호환 모델에 대해 최대 14장의 참조 이미지를 받을 수 있다.

데스크톱 앱은 원클릭 인스톨러로 배포된다. 현재 1.0.2 버전 기준 macOS Apple Silicon(M1/M2/M3/M4) 및 Intel x64용 .dmg, Windows x64+ARM64용 Setup .exe가 제공되며, Linux Ubuntu x64는 npm run electron:build:linux 명령으로 로컬 빌드한다. macOS는 공증되지 않은 앱이라 Gatekeeper가 첫 실행을 차단하는데, /Applications으로 드래그한 뒤 xattr -cr 명령으로 격리 속성을 제거하라고 안내한다.

또한 데스크톱 앱은 stable-diffusion.cpp 기반 로컬 생성 엔진을 내장해 API 키나 인터넷 연결 없이 자체 머신에서 이미지 생성이 가능하다. 제공 모델은 Z-Image Turbo(2.5GB + 2.7GB 보조 파일, 8 스텝 터보), Z-Image Base(3.5GB + 2.7GB 보조 파일, 50 스텝 고품질), Dreamshaper 8(SD 1.5, 2.1GB), Realistic Vision v5.1(2.1GB), Anything v5(2.1GB), SDXL Base 1.0(6.9GB) 등이다.

Z-Image 모델군은 두 모델이 공유하는 보조 파일로 Qwen3-4B 텍스트 인코더(2.4GB)와 FLUX VAE(335MB)를 한 번만 다운로드해 사용한다. 권장 환경은 Z-Image 모델 기준 16GB RAM이며, 가중치 7.4GB와 컴퓨트 버퍼 2.4GB가 필요하다고 명시했다. 로컬 추론은 모든 플랫폼의 CPU와 macOS Apple Silicon의 Metal GPU에서 실행되며, Metal GPU 가속은 macOS 데스크톱 바이너리에 기본 내장돼 CPU 대비 속도가 크게 빠르다.

프로젝트는 호스팅 버전(dev.muapi.ai/open-generative-ai)을 함께 운영해 Node.js나 별도 설정 없이 브라우저에서 4개 스튜디오를 사용할 수 있게 한다. 호스팅 버전은 클라우드 API를 통해 항상 최신 모델로 업데이트되며, 별도 회원가입으로 무료 생성을 시작할 수 있다고 README는 설명한다.

또한 저장소는 'Generative-Media-Skills' 라이브러리를 통해 Claude Code, Codex 등 AI 코딩 어시스턴트가 200+ 이미지·영상 모델을 프롬프트→생성→편집→스티치 과정으로 자동화할 수 있다고 강조한다. UI를 거치지 않고 터미널에서 자동 미디어 파이프라인을 구성하는 사례를 겨냥한 것으로, OpenAI gpt-image-2 API를 위한 'Awesome GPT-Image-2 API Prompts' 큐레이션도 함께 제공한다.

'Anil-matcha/Open-Generative-AI' 깃허브 공개… 200+ 모델 오픈소스 미디어 스튜디오, 4개 스튜디오·로컬 sd.cpp 추론 지원

관련 기사