디카트, 자율주행 시뮬레이션용 실시간 월드 모델 '오아시스 3' 공개
AI 스타트업 디카트가 수요일 사실적인 주행 환경을 실시간으로 생성하는 최신 인터랙티브 월드 모델 '오아시스 3'를 공개했다. 모델은 현재 API로 제공된다.
디카트는 우선 드물게 발생하는 주행 시나리오를 대규모로 시뮬레이션해야 하는 자율주행차 기업을 겨냥하고, 이후 로보틱스 등 피지컬 AI 영역으로 확장할 계획이다. 다만 더 큰 승부수는 개발자에 있다. 출시 첫날부터 API를 열어, 오픈AI가 언어 모델로 그랬듯 월드 모델을 둘러싼 개발자 생태계를 구축하려 한다.
공동창업자 겸 CEO 딘 라이터스도르프는 "사람들이 실제로 그 위에서 프로그래밍할 수 있는 첫 실용 월드 모델이 될 것"이라며 "이 위에서 완전히 새로운 개발자 커뮤니티가 생겨날 것"이라고 말했다. 디카트는 이미 10만 명이 넘는 개발자 커뮤니티를 두고 있으며, 이들 다수는 실시간 영상 모델 '루시'를 기반으로 주로 이커머스와 라이브 스트리밍 분야에서 제품을 만들고 있다. 오아시스 3는 이 파운데이션 모델을 토대로 한다.
이용 요금은 초당 0.02달러이며, 기업용 가격은 활용 사례에 따라 달라진다고 디카트는 밝혔다. 오아시스 3는 점점 붐비는 월드 모델 시장에 합류했다. 지난해 구글은 지니 3를 리서치 프리뷰로 공개했고, 페이페이 리의 월드 랩스는 상업용 마블을 선보였으며, 루마와 런웨이 같은 영상 생성 스타트업도 물리 인식 영상 모델을 월드 모델로 전환하고 있다.
오아시스 3 출시는 설립 2년 차인 디카트가 3억 달러를 유치한 지 몇 주 뒤에 나왔다. 이 투자로 기업가치는 약 40억 달러로 올랐고 토요타·어도비·이베이 같은 전략적 투자자가 합류했다. 라이터스도르프는 이들 모두 잠재 고객이라고 말했다. 기존 투자자 엔비디아도 이번 라운드에 참여했다.
오아시스 3의 강점은 사실적 영상과 무한 생성 능력이다. 이는 자사의 또 다른 핵심 제품인 DOS(디카트 최적화 스택) 소프트웨어 덕분으로, 엔비디아·아마존·구글 하드웨어에서 모델을 효율적으로 구동해 경쟁사보다 훨씬 저렴하게 실행한다. 라이터스도르프는 "수직 통합 덕분에 업계 누구보다 한 자릿수 배수 이상 저렴하게 이 모델을 돌릴 수 있다"고 말했다. 그는 디카트가 지금까지 1억 달러보다 "훨씬 적게" 썼다고 덧붙였다.
오아시스 3는 전방 1개와 측면 2개로 구성된 다중 카메라 환경을 물리적으로 정확하게 생성해 시스템 학습과 테스트에 쓸 수 있게 한다. 제한된 데모나 리서치 프리뷰 대신 개발자가 시나리오를 무한히 생성하도록 허용하는데, 이는 가능한 한 많은 엣지 케이스를 시도하려는 자율주행 개발자에게 적합하다.
테크크런치가 직접 써본 결과, 시스템은 프롬프트에 맞는 강력한 초기 장면을 일관되게 구성했지만 이동할수록 주제적 일관성이 빠르게 무너졌다. '아침의 뉴욕 거리'를 요청하자 멋지게 만들어냈지만, 주행을 이어가자 뉴욕보다는 평범한 서구 도시처럼 변했다. 처음 교차로로 되돌아가려 하자 그곳은 사라지고 완전히 새로운 환경으로 바뀌어 있었다. 조작 반응성도 떨어져 차량의 이동 방향을 자주 놓쳤다.
또 다른 문제는 차가 다른 차를 그대로 통과해버린다는 점으로, 환경의 물리를 제대로 시뮬레이션하지 못한다는 의미다. 라이터스도르프는 이를 "지금 풀고 있는 중대한 연구 과제"라며 "정상 주행 데이터가 사고 데이터보다 압도적으로 많기 때문"이라고 설명했다. 오아시스 3는 한 번에 한 프레임씩 생성하고 직전에 만든 프레임을 되짚어 다음을 정하는 자기회귀 방식이라 연산 부담이 크다.
라이터스도르프는 "프레임 하나가 약 8,000토큰이고, 이를 초당 수십 프레임으로 생성하면 초당 수십만 토큰"이라며 "컨텍스트 창이 매우 빨리 차서, 수백만 토큰을 더 저장할 긴 컨텍스트와 메모리를 더 적은 토큰으로 압축하는 방법을 연구 중"이라고 말했다. 그는 이미지가 아니라 영상에서 월드 생성을 시작하는 다음 버전에서 일관성 문제가 일부 해결될 수 있다고 봤다. 또한 그는 LLM 초창기 오픈AI가 모델 API를 만들었던 때를 떠올리며, 개발자 손에 기술이 쥐어질 때 벌어질 일에 더 주목한다고 밝혔다.