구글, 온디바이스 LLM 추론 프레임워크 LiteRT-LM 오픈소스 공개… Gemma 4 지원에 하루 487스타
구글이 대규모 언어 모델(LLM)을 엣지 디바이스에서 구동하기 위한 고성능 오픈소스 추론 프레임워크 LiteRT-LM을 공개했다. 프로덕션 수준의 안정성을 갖춘 이 프레임워크는 GitHub에서 하루 만에 487개의 스타를 기록하며 개발자들의 관심을 끌고 있다.
LiteRT-LM은 Android, iOS, 웹, 데스크톱, IoT(라즈베리 파이 포함)까지 폭넓은 플랫폼을 지원한다. GPU와 NPU 하드웨어 가속을 통해 최적의 성능을 제공하며, 비전 및 오디오 입력을 위한 멀티모달 기능도 갖추고 있다.
특히 에이전틱 워크플로우를 위한 함수 호출(Function Calling) 기능을 지원하는 점이 주목된다. 최신 v0.9.0 버전에서는 이 함수 호출 기능이 개선되었으며, 앱 성능 안정성도 향상됐다.
모델 지원 범위도 넓다. Gemma, Llama, Phi-4, Qwen 등 다양한 모델을 구동할 수 있으며, 특히 구글의 최신 Gemma 4 모델을 다양한 하드웨어에서 배포할 수 있도록 최적화되어 있다.
LiteRT-LM은 이미 구글의 주요 제품에 적용되어 있다. Chrome 브라우저, Chromebook Plus, Pixel Watch 등에서 온디바이스 생성형 AI 경험을 제공하는 데 활용되고 있다.
개발자 접근성도 높다. Kotlin(안정), Python(안정), C++(안정) SDK가 제공되며, Swift는 현재 개발 중이다. CLI 도구를 통해 코드 한 줄 없이 터미널에서 바로 모델을 실행해볼 수 있다.
이전 버전인 v0.8.0에서는 데스크톱 GPU 지원과 멀티모달 기능이 추가됐고, v0.7.0에서는 Gemma 모델을 위한 NPU 가속이 도입된 바 있다. 빠른 업데이트 주기가 프레임워크의 활발한 개발을 보여준다.
구글의 AI 에지 갤러리(AI Edge Gallery) 앱과도 연계되어 있어, 사용자는 Google Play나 App Store에서 앱을 설치해 디바이스에서 즉시 모델을 실행해볼 수 있다.