H컴퍼니, 로컬 실행 컴퓨터 조작 에이전트 'Holo3.1' 양자화 모델 첫 공개
H컴퍼니(Hcompany)가 데스크톱과 모바일을 아우르는 컴퓨터 조작 에이전트 제품군 'Holo3.1'을 공개했다. 특히 이번 출시에서 처음으로 로컬 추론에 최적화된 양자화 체크포인트인 FP8, Q4 GGUF, NVFP4를 함께 내놓았다.
개발팀은 사용자들이 같은 컴퓨터 조작 기능을 데스크톱과 모바일에서 동일하게 쓰고, 서로 다른 에이전트 프레임워크와 매끄럽게 통합하길 원한다고 설명했다. 또 클라우드 추론부터 사용자 단말기에서의 완전 로컬 실행까지 배포 유연성을 바란다는 것이다. Holo3.1은 이런 요구에 맞춰 환경(웹·데스크톱·모바일), 에이전트 프레임워크, 배포 대상이라는 세 축에서 견고함을 끌어올렸으며, Qwen 제품군을 기반으로 설계됐다.
모바일 자동화에서 큰 성능 향상이 두드러진다. AndroidWorld 벤치마크에서 35B-A3B 모델은 67%에서 79.3%로, 더 작은 4B와 9B 변형은 58%에서 72%로 점수가 올랐다.
서드파티 에이전트 스택 지원을 위해 Holo3.1은 기존 Holo3가 제공하던 구조화된 JSON 출력에 더해 함수 호출 프로토콜을 네이티브로 지원한다. OSWorld와 이커머스·업무 소프트웨어·협업 워크플로를 다루는 내부 벤치마크에서 함수 호출과 네이티브 실행이 거의 동등한 성능을 냈고, 자사 Holotab 제품 하네스 내부 평가에서는 Holo3 대비 25% 이상 향상됐다.
모델은 네 가지 크기로 제공된다. 초경량 로컬 에이전트용 0.8B, 비용 효율적 배포를 위한 4B, 성능과 지연의 균형을 맞춘 9B, 그리고 최고 성능을 노린 35B-A3B다. 소형 모델들은 비용 효율적이면서도 프라이버시를 지키는 배포를 겨냥했다.
이번이 양자화 가중치를 처음 출시하는 사례로, 35B-A3B 체크포인트를 FP8, Q4 GGUF, NVFP4로 내놓는다. NVFP4는 NVIDIA의 모델 옵티마이저를 W4A16 구성으로 사용해 만들었으며, FP8과 NVFP4는 OSWorld 점수가 동일하고 전정밀 BF16 체크포인트보다 약 2점 낮은 수준이다. DGX 스파크에서 NVFP4 W4A16은 FP8 대비 1.41배, BF16 대비 1.74배의 총 토큰 처리량을 낸다.
컨슈머 하드웨어에서의 로컬 구동을 위해 Q4 GGUF 체크포인트도 공개됐다. 에이전트 자체는 윈도우나 맥 기기에서 로컬로 돌아가고, 모델은 같은 기기(애플 실리콘 참조 수치 제공)나 같은 네트워크에 있는 DGX 스파크에서 실행할 수 있다. 두 경우 모두 실행이 완전히 비공개·로컬로 유지돼 사용자 네트워크 밖으로 아무것도 나가지 않는다.
속도 개선도 상당하다. 스파크에서 NVIDIA와 함께 개발한 에이전트 하네스 최적화에 NVFP4 양자화를 더하면 FP8 기준 대비 종단간 약 2배의 복합 속도 향상이 나타나, 평균 스텝 시간이 6.8초에서 3.3초로 줄었다. vLLM에 NVFP4를 적용하면 기본·고속 모드 모두에서 가장 높은 요청률을 기록했고, 그 뒤를 Q4 GGUF와 FP8이 이었다.
Holo3.1은 0.8B, 4B, 9B, 35B-A3B 네 가지 크기와 함께 로컬·엣지 배포용 FP8, NVFP4, Q4 GGUF 체크포인트로 제공된다. 개발팀은 이번 출시를 어떤 환경에서도 작동하고 어떤 에이전트 스택에도 통합되며 워크플로가 있는 곳 어디서든 실행되는 보편적 컴퓨터 조작 에이전트라는 비전을 향한 중요한 진전으로 규정했다.