목록으로
연구2026년 4월 6일 PM 09:37

Parlor, Gemma 4 E2B 기반 실시간 음성·영상 AI를 M3 Pro에서 로컬 구동

오픈소스 프로젝트 Parlor가 구글의 Gemma 4 E2B 모델을 활용해, 클라우드 연결 없이 로컬 환경에서 실시간 음성 및 영상 대화를 수행하는 멀티모달 AI 시스템을 공개했다. 애플 M3 Pro 칩이 탑재된 맥북에서 구동되며, 카메라와 마이크를 통해 자연스러운 대화가 가능하다.

Parlor는 음성 및 영상 입력의 이해에 Gemma 4 E2B 모델을, 음성 출력(텍스트-투-스피치)에는 Kokoro를 사용한다. 사용자가 말하고 카메라를 보여주면, AI가 음성으로 응답하는 구조다. 모든 처리가 기기 내에서 이루어지므로 데이터가 외부로 전송되지 않는다.

최초 실행 시 Gemma 4 E2B 모델과 TTS 모델이 자동으로 다운로드되며, Gemma 4 E2B의 용량은 약 2.6GB다. 설치 후에는 localhost:8000 주소로 접속해 카메라와 마이크 권한을 부여하면 바로 사용할 수 있다.

개발자는 이 프로젝트를 리서치 프리뷰(Research Preview) 단계로 분류하며, 아직 초기 실험 수준이라 불안정한 부분이 있을 수 있다고 밝혔다. 그럼에도 온디바이스 멀티모달 AI의 실용 가능성을 보여주는 사례로 주목받고 있다.

Parlor는 uv 패키지 매니저를 사용해 설치할 수 있으며, 소스코드를 클론한 뒤 간단한 명령어로 서버를 실행하는 방식이다. 로컬 모델 경로를 직접 지정하는 환경변수 설정도 지원한다.

이 프로젝트는 온디바이스 AI가 단순 텍스트 처리를 넘어 음성과 영상을 실시간으로 처리하는 단계에 진입했음을 시사한다. 클라우드 의존도를 낮추면서도 자연스러운 멀티모달 상호작용이 가능해지고 있다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사