구글 딥마인드, Gemini Robotics-ER 1.6 공개… Boston Dynamics와 산업 시설 자율 점검 실현
구글 딥마인드가 로봇용 추론 모델 Gemini Robotics-ER 1.6을 공개했다. 이번 업그레이드는 로봇이 물리적 환경을 전례 없는 정밀도로 이해할 수 있도록 공간 추론과 다중 뷰 이해를 대폭 강화한 것이 핵심이다.
이 모델은 시각·공간 이해, 작업 계획, 성공 감지 등 로보틱스에 필수적인 추론 능력에 특화됐다. 로봇의 고수준 추론 모델로 작동하며, Google Search, 비전-언어-행동 모델(VLA), 서드파티 사용자 정의 함수 등 다양한 도구를 네이티브로 호출해 작업을 수행할 수 있다.
Gemini Robotics-ER 1.6은 이전 모델인 Robotics-ER 1.5와 Gemini 3.0 Flash 대비 공간·물리 추론 성능이 크게 향상됐다. 특히 포인팅(정밀 객체 감지·계수), 성공 감지, 계기 판독이라는 세 가지 핵심 역량에서 두드러진 개선을 보였다.
계기 판독 기능은 파트너사 Boston Dynamics와의 긴밀한 협업에서 탄생했다. Boston Dynamics의 4족 보행 로봇 Spot이 산업 시설 내 온도계, 압력 게이지, 사이트 글래스 등을 촬영하면, 모델이 에이전틱 비전을 통해 이미지를 확대하고 코드 실행으로 비율과 간격을 추정해 정확한 수치를 판독한다.
성공 감지 기능도 한층 진화했다. 다중 카메라 스트림 간의 관계를 이해하는 다중 뷰 추론이 향상돼, 오버헤드와 손목 장착 카메라 피드를 동시에 처리하면서 가림이나 동적 환경에서도 작업 완료 여부를 판단할 수 있다.
안전성 측면에서도 역대 가장 안전한 로보틱스 모델이라고 구글은 밝혔다. 실제 부상 보고서 기반 테스트에서 부상 위험 감지 정확도가 Gemini 3.0 Flash 대비 텍스트 +6%, 비디오 +10% 향상됐다. 그리퍼나 소재 제약에 따른 물리적 안전 제한(예: "액체 취급 금지", "20kg 초과 물체 집지 않기")도 더 정확히 준수한다.
Gemini Robotics-ER 1.6은 Gemini API와 Google AI Studio를 통해 개발자에게 즉시 제공되며, 구글은 모델 구성과 임베디드 추론 작업 프롬프팅 예제가 포함된 개발자용 Colab도 함께 공개했다.