목록으로
연구2026년 4월 17일 PM 08:35

MIT Tech Review, 로봇 학습 현대사 정리… 휴머노이드 투자 2025년 61억 달러로 2024년의 4배

<p>MIT Technology Review가 로봇이 세계와 상호작용하는 법을 배워온 과정을 정리한 현대사 기사를 공개했다. 기업과 투자자들은 2025년 한 해 동안 휴머노이드 로봇에 61억 달러를 투입했으며, 이는 2024년의 4배 규모다. 오랫동안 실리콘밸리가 '도움이 되는 로봇'에 베팅하기를 주저하게 만들었던 실패의 역사는, 기계가 학습하는 방식의 혁명으로 뒤집히고 있다는 것이 기사의 핵심 진단이다.</p>

<p>초기 로봇공학의 접근은 가능한 모든 상황을 규칙으로 미리 인코딩하는 방식이었다. 예를 들어 옷 접기 로봇을 만들려면 천의 변형 허용치, 셔츠 깃 인식, 왼쪽 소매의 이동 거리와 접는 폭, 셔츠가 회전·뒤틀려 있을 때의 보정까지 일일이 규정해야 했다. 규칙의 수가 폭발적으로 늘지만 결과는 신뢰할 수 있다는 점이 '모든 가능성을 미리 기술하는' 전통적 로봇공학의 정수였다.</p>

<p>2015년경부터는 접근법이 달라졌다. 디지털 시뮬레이션 안에서 로봇 팔과 옷을 구현한 뒤, 접기를 성공하면 보상을, 실패하면 벌점을 주는 방식으로 수백만 번의 시행착오를 반복시켰다. 2022년 ChatGPT 등장 이후에는 대규모 언어 모델의 접근법을 로봇에 이식해, 이미지·센서 값·관절 위치를 입력 받고 초당 수십 개의 모터 명령을 다음 행동으로 예측하는 모델이 등장했다.</p>

<p>사회적 로봇의 선례로 언급된 것이 Jibo다. MIT 로봇공학 연구자 Cynthia Breazeal은 2014년 팔·다리·얼굴이 없는, 램프처럼 생긴 가족용 소셜 로봇 Jibo를 선보였다. 크라우드펀딩에서 370만 달러를 모았고 프리오더 가격은 749달러였다. 초기 Jibo는 자기소개와 아이들을 위한 춤 정도는 할 수 있었지만, 일정·이메일·스토리텔링까지 소화하는 '체화된 비서'라는 비전에는 미치지 못한 채 2019년 회사가 문을 닫았다.</p>

<p>Jibo에게 필요했던 것은 더 나은 언어 능력이었다. 당시 Apple Siri·Amazon Alexa를 포함한 음성 기술은 음성→텍스트 변환, 의도 분석, 사전 승인된 문구 응답이라는 무거운 스크립팅에 의존했다. 매력적일 수는 있어도 반복적이고 '로봇적'이었다는 것이다. 오늘날 주요 AI 업체의 음성 모드는 훨씬 자연스러워졌지만, 스크립트와 달리 AI가 생성한 대화는 궤도를 이탈할 위험을 안고 있다. 실제로 일부 AI 장난감은 아이들에게 성냥이나 칼을 찾는 법을 언급한 사례가 있었다고 기사는 전한다.</p>

<p>OpenAI가 2018년 공개한 로봇 손 Dactyl은 시뮬레이션 기반 훈련의 대표 사례다. 손과 손바닥 크기 큐브의 디지털 모델을 만들어, 큐브의 면에 쓰인 글자와 숫자를 이용해 '빨간 O 면이 위를 향하도록 회전시켜라' 같은 과제를 반복 학습시켰다. 다만 시뮬레이션에서 잘 돌리던 손이 현실에서는 색상·마찰·손끝 고무의 탄성 같은 미묘한 차이로 어긋나기 쉽다는 한계가 있었다.</p>

<p>이에 대한 해법이 '도메인 랜덤화(domain randomization)'였다. 마찰·조명·색상이 조금씩 다른 수백만 개의 시뮬레이션 세계를 만들어 훈련시키면, 로봇이 현실의 변동성에 더 잘 대응하도록 만들 수 있다. 이 방식을 적용한 Dactyl은 1년 뒤 같은 기법으로 루빅스 큐브를 풀 수 있었는데, 성공률은 60%였고 섞임이 특히 어려운 경우에는 20%에 그쳤다. OpenAI는 2021년 로보틱스 부문을 정리했다가 최근 다시 사업부를 가동했으며, 휴머노이드에 초점을 맞추고 있다고 전해진다.</p>

<p>Google의 로봇팀은 2022년경 대규모 기반 모델 실험에 착수했다. 17개월 동안 사람들에게 로봇 컨트롤러를 쥐어주고 과자 봉지를 집거나 병 뚜껑을 여는 등의 동작을 녹화해, 총 700개 과제의 데이터를 축적했다. 이 데이터를 기반으로 만든 RT-1은 로봇의 시각 입력과 로봇 팔 관절 위치를 받아 지시를 모터 명령으로 번역했으며, 이전에 본 과제에서는 97%, 본 적 없는 지시에서도 76%의 성공률을 기록했다.</p>

<p>이듬해 공개된 RT-2는 로봇 전용 데이터에만 의존하지 않고 인터넷의 일반 이미지를 광범위하게 학습해, 당시 많은 연구자들이 다루던 비전-언어 모델의 접근법을 로봇에 접목했다. MIT Technology Review는 대량 데이터를 흡수하는 AI 모델에 의존하고, 완벽하지 않은 로봇이라도 환경에 배치해 학습시키는 접근 등 일련의 개념 전환이 오늘날 실리콘밸리 로봇공학자들이 다시 크게 꿈꾸게 된 배경이라고 정리했다.</p>

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사