Light-Heart-Labs, 한 명령으로 로컬 AI 풀스택 설치하는 'Dream Server' 공개
Light-Heart-Labs가 자체 하드웨어에서 한 번의 명령으로 동작하는 로컬 우선 AI 풀스택 'Dream Server'를 오픈소스로 공개했다. 소수 기업이 전 세계 AI 트래픽 대부분을 통제하면서 사용자의 데이터, 비용, 가동 시간까지 좌우하는 구조에서 벗어나는 것이 목표라고 밝혔다.
Dream Server는 LLM 추론, 채팅, 음성, 에이전트, 워크플로, RAG, 이미지 생성, 프라이버시 도구를 단일 스택으로 묶었다. 구독이나 클라우드 의존이 필요 없으며, 원할 때는 클라우드·하이브리드 API 모드도 선택할 수 있다고 설명했다.
지원 플랫폼은 Linux(NVIDIA·AMD·Intel Arc), Windows(NVIDIA·AMD), macOS(애플 실리콘 M1 이상)이다. Linux는 Ubuntu 24.04/22.04, Debian 12, Fedora 41 이상, Arch Linux, CachyOS, openSUSE Tumbleweed에서 검증됐고, apt·dnf·pacman·zypper 기반의 다른 배포판도 동작한다. Windows는 WSL2 기반 Docker Desktop이 필요하며, macOS는 Docker Desktop을 깐 뒤 llama-server가 Metal 가속으로 직접 실행되고 나머지 서비스는 컨테이너에서 돌아간다.
설치 스크립트는 GPU를 감지해 최적 모델을 자동 선택하고, 자격증명을 생성한 뒤 모든 서비스를 띄운다. 'bootstrap mode'가 작동 가능한 작은 모델을 먼저 띄워 2분 안에 채팅이 가능하게 하고, 풀 사이즈 모델은 백그라운드에서 내려받는다.
묶음에는 Open WebUI 채팅 인터페이스, llama-server 추론 엔진, LiteLLM API 게이트웨이, TEI 임베딩, Whisper 음성 인식, Kokoro 음성 합성, Hermes Agent 자율 에이전트, OpenClaw 에이전트 프레임워크, 통합 400개 이상을 갖춘 n8n 워크플로, 자율 도구 호출을 감사·통제하는 APE(Agent Policy Engine), ComfyUI 이미지 생성, Qdrant 벡터 DB, SearXNG 자체 호스팅 검색, Perplexica 리서치 엔진, PII 차단 프록시 Privacy Shield, 토큰 사용량 모니터 Token Spy, LLM 관측 도구 Langfuse가 포함된다.
모델은 VRAM 등급에 따라 자동 매핑된다. 8GB 미만이거나 CPU만 있는 경우 Qwen3.5 2B(컨텍스트 8K)가 적용되고, 8~11GB는 Qwen3.5 9B 또는 Gemma 4 E2B IT(16K), 12~20GB는 Qwen3.5 9B 또는 Gemma 4 E4B IT(32K)가 선택된다. 20~40GB 등급에서는 Qwen3 30B-A3B MoE 또는 Gemma 4 26B-A4B IT가, 40GB 이상에서는 Qwen3 30B-A3B MoE 또는 Gemma 4 31B IT가 적용되며 컨텍스트는 Qwen 128K, Gemma 64K까지 확장된다. 90GB 이상 다중 GPU 환경에서는 Qwen3 Coder Next가 사용된다.
클라우드 모드 옵션도 갖췄다. ./install.sh --cloud로 설치하면 로컬 추론 대신 OpenAI, Anthropic, Together의 API로 동일한 스택을 운용할 수 있다. 모든 포트는 환경변수로 변경 가능하고, Open WebUI는 localhost:3000을 기본 포트로 쓴다. llama-server는 Linux Docker 호스트에서 11434(OLLAMA_PORT)를, macOS와 Windows 네이티브 경로 및 컨테이너 내부에서는 8080을 기본으로 노출한다.