연구2026년 5월 19일 PM 11:06

HKUDS, 컨셉 입력으로 영상까지 자동 생성하는 멀티 에이전트 프레임워크 'ViMax' 공개

HKUDS가 컨셉만 입력하면 스크립트·스토리보드·캐릭터 디자인·영상 생성까지 자동 처리하는 멀티 에이전트 영상 프레임워크 'ViMax'를 오픈소스로 공개했다. 캐릭터와 장면 일관성을 유지하면서 멀티샷 영상 생성을 자동화하는 것이 핵심이다.

ViMax는 짧은 클립에 그치는 기존 AI 영상 도구의 한계, 프레임마다 캐릭터와 장면이 달라지는 일관성 문제, 스크립트·오디오·서사 구조가 빠진 시각 위주 생성을 한꺼번에 풀려는 접근이다. 입력 레이어는 아이디어·스크립트·소설, 자연어 프롬프트, 레퍼런스 이미지, 스타일 가이드, 설정 파일이며 출력 레이어는 프레임, 클립과 최종 영상, 로그, 작업 디렉터리 산출물로 구성된다.

기술적 핵심 능력은 일곱 갈래다. RAG 기반 긴 스크립트 엔진은 소설 분량의 긴 이야기를 분석해 다중 장면 스크립트 형식으로 자동 분할하면서 핵심 줄거리와 캐릭터 대사를 보존한다. 표현형 스토리보드 디자인 시스템은 카메라 언어를 활용해 샷 단위 스토리보드를 만들고 후속 영상 생성을 위한 서사 리듬을 설정한다.

멀티 카메라 촬영 시뮬레이션은 동일 장면 내에서 캐릭터 포지셔닝과 배경 일관성을 유지하면서 다각도 화면을 만든다. 지능형 레퍼런스 이미지 선택 모듈은 직전 타임라인의 스토리보드까지 참고해 현재 영상의 첫 프레임용 레퍼런스를 골라 다중 캐릭터·환경 요소의 정확도를 끌어올린다.

자동 이미지 생성 단계에서는 선택된 레퍼런스와 직전 타임라인의 시각적 논리 순서를 바탕으로 캐릭터와 환경의 공간 상호작용 위치를 합리적으로 배치하는 프롬프트가 자동 생성된다. 자동 일관성 체크 단계에서는 여러 이미지를 병렬로 생성한 뒤 MLLM/VLM이 가장 일관된 이미지를 첫 프레임으로 선택해 인간 크리에이터의 워크플로를 모사한다. 같은 카메라에서 이어지는 순차 샷은 병렬 처리되어 생산 효율을 높인다.

사용자가 자신의 사진을 업로드하면 캐릭터로 등장하는 카메오 영상 기능도 지원해, 시나리오와 시네마틱 시퀀스 전반에 일관된 외모와 자연스러운 상호작용으로 등장한다. 소설을 에피소드형 영상으로 변환하는 문학 각색 엔진, 임의 시나리오 영상 생성, 한 줄 프롬프트에서 완성 영상까지 가는 'One-Prompt to Finished Video', 캐릭터 음성과 효과음을 시각 콘텐츠와 동기화하는 오디오·영상 결합도 함께 묶었다.

기본 설정 파일 configs/idea2video.yaml은 채팅 모델, 이미지 생성기, 영상 생성기 세 부분으로 나뉜다. 예시 구성은 OpenRouter(base_url: https://openrouter.ai/api/v1)를 통한 google/gemini-2.5-flash-lite-preview-09-2025 채팅 모델과 tools.ImageGeneratorNanobananaGoogleAPI 이미지 생성기 조합이다. 지원 OS는 Linux와 Windows이며 환경 관리는 uv로 수행하고, 저장소를 git clone한 뒤 uv sync, main_idea2video.py 실행으로 아이디어를 영상으로 변환한다.

공개된 로드맵에는 Google AI Studio API 설정, 개발 모드 브랜치, AutoCameo 통합, 추가 데모, 샷 플래닝, 새 기능 추가가 올라 있으며 이 가운데 Google AI Studio API 설정만 완료 표시가 붙어 있다.

HKUDS, 컨셉 입력으로 영상까지 자동 생성하는 멀티 에이전트 프레임워크 'ViMax' 공개

관련 기사