Physical Intelligence, 로봇 신모델 'π0.7' 공개… 훈련 데이터에 없는 작업도 구성적 일반화로 수행
샌프란시스코에 기반을 둔 2년차 로보틱스 스타트업 Physical Intelligence가 4월 16일(현지시각) 새 모델 π0.7에 관한 연구를 공개했다. 회사는 이 모델이 명시적으로 훈련받지 않은 작업을 로봇이 수행하도록 지시할 수 있다고 밝혔으며, 자사 연구원들조차 결과에 놀랐다고 전했다.
논문의 핵심 주장은 '구성적 일반화(compositional generalization)'다. 서로 다른 맥락에서 학습한 스킬을 조합해 모델이 한 번도 접하지 못한 문제를 해결하는 능력을 가리킨다. 기존 로봇 훈련은 특정 작업에 대한 데이터를 수집하고 그 작업을 위한 specialist 모델을 학습한 뒤 새로운 작업마다 이 과정을 반복하는 사실상 암기 방식이었지만, π0.7은 이 패턴을 깬다고 회사는 설명했다.
공동창업자이자 UC Berkeley 교수인 Sergey Levine은 "수집한 데이터의 작업만 수행하는 단계에서 새로운 방식으로 스킬을 리믹스하는 단계로 임계점을 넘으면, 능력이 데이터 양에 대해 선형 이상으로 증가한다"며 "이는 언어·비전 같은 다른 도메인에서 봐 온 더 유리한 스케일링 속성"이라고 말했다.
가장 두드러진 시연은 에어 프라이어 사례다. 연구팀이 조사한 결과 전체 훈련 데이터셋에 관련 에피소드는 단 두 건뿐이었다. 한 건은 다른 로봇이 단순히 에어 프라이어를 닫는 장면, 다른 한 건은 오픈소스 데이터셋에서 또 다른 로봇이 누군가의 지시에 따라 플라스틱 병을 안에 넣는 장면이었다. 모델은 이들 단편과 웹 기반 사전학습 데이터를 종합해 어떻게든 기기 사용법을 합성해 냈고, 코칭 없이도 고구마 요리를 시도하는 데 어느 정도 성공했다. 사람이 단계별로 말로 안내하자 작업을 성공적으로 수행했다.
Physical Intelligence 연구과학자이자 Stanford 컴퓨터과학 박사과정생인 Ashwin Balakrishna는 "실패의 원인이 로봇이나 모델이 아니라 우리 자신의 프롬프트 엔지니어링이 부족했던 경우도 있다"며, 초기 에어 프라이어 실험에서 5% 수준이던 성공률이 약 30분간 작업 설명 방식을 다듬은 뒤 95%까지 뛰었다고 밝혔다.
다만 모델은 단일 고차원 명령만으로 복잡한 다단계 작업을 자율 수행할 수 있는 단계에는 아직 도달하지 못했다. Levine은 "'토스트를 만들어 줘'라고 말하긴 어렵지만, '토스터의 이 부분을 열고, 저 버튼을 누르고…' 식으로 단계별로 안내하면 꽤 잘 작동한다"고 설명했다. 회사는 또 표준화된 로보틱스 벤치마크가 사실상 존재하지 않는다는 점을 인정하며, π0.7을 자사의 이전 specialist 모델들과 비교했다. 커피 만들기, 빨래 개기, 박스 조립 등 다양한 복잡 작업에서 generalist 모델이 specialist의 성능과 어깨를 나란히 했다고 밝혔다.
Physical Intelligence는 지금까지 누적 10억 달러 이상을 조달했고 최근 56억 달러로 평가받았다. 보도에 따르면 회사 가치를 약 110억 달러로 거의 두 배 키울 신규 라운드를 논의 중이며, 회사는 코멘트를 거부했다. 공동창업자 Lachy Groom은 Figma·Notion·Ramp 등을 후원해 온 실리콘밸리의 대표적 엔젤 투자자 출신이며, 그의 이력은 회사가 상업화 일정을 제시하지 않으면서도 기관 자금을 끌어들이는 데 기여했다.
Levine은 GPT-2가 안데스의 유니콘 이야기를 생성하던 순간을 회고하며 "이런 이상한 조합이 어디서 학습됐을까 하고 놀랐던 그 경험을 로보틱스에서 보는 것이 정말 특별하다"고 말했다. 논문 자체는 π0.7을 일반화의 "초기 신호"이자 새 능력의 "초기 시연"으로 신중하게 표현하고 있고, Levine은 시스템의 실제 배치 시점에 대해서는 "낙관할 이유는 있지만 답하기 매우 어렵다"며 구체적 시한을 피했다.