AlphaGo 창시자 데이비드 실버, LLM 대신 강화학습 초지능 도전… Ineffable Intelligence에 11억 달러 시드 투자
<p>AlphaGo의 창시자 데이비드 실버(David Silver)가 거대 언어 모델(LLM)이 아닌 강화학습 기반 초지능을 추구하는 새 스타트업 Ineffable Intelligence를 창업해 시드 라운드에서 11억 달러를 유치했다고 WIRED가 보도했다. 기업가치는 51억 달러로, 유럽 AI 기준으로는 막대한 규모다.</p>
<p>실버는 2016년 구글 딥마인드(Google DeepMind)에서 AlphaGo를 개발해 바둑이라는 어려운 게임에서 모방 수준을 훨씬 뛰어넘는 마스터 기량을 스스로 학습하는 모습을 처음으로 세상에 보여준 인물이다. 그가 새로 설립한 Ineffable Intelligence는 시행착오를 통해 새로운 능력을 학습하는 강화학습에 집중해 다양한 영역에서 인간 지능을 뛰어넘는 "슈퍼러너(superlearners)"를 만드는 것을 목표로 한다.</p>
<p>이 같은 접근은 LLM의 코딩·연구 능력을 활용해 초지능을 구축하려는 대다수 AI 기업의 노선과 정반대다. 런던 사무실에서 진행된 WIRED와의 인터뷰에서 실버는 LLM 중심 접근이 결국 실패할 것이라고 말했다. LLM은 아무리 인상적이라 해도 인간 지능에서 학습할 뿐 자체적인 지능을 구축하지는 못한다는 이유에서다.</p>
<p>실버는 "인간 데이터는 놀라운 지름길을 제공한 일종의 화석 연료와 같다. 스스로 학습하는 시스템은 한계 없이 계속 학습할 수 있는 재생 에너지로 볼 수 있다"고 말했다. 이어 "우리의 임무는 초지능과의 첫 접촉(first contact with superintelligence)을 만드는 것"이라며 "초지능이란 진정 놀라운 것이며, 과학·기술·정부·경제의 새로운 형태를 스스로 발견하는 존재여야 한다"고 덧붙였다.</p>
<p>실버는 회사가 성공해 자신의 지분에서 수익이 발생할 경우(성공 시 수십억 달러에 이를 수 있는 금액) 모두 자선단체에 기부하겠다고 밝혔다. 그는 "초지능에 집중하는 회사를 세우는 것은 큰 책임"이라며 "이 일은 인류의 이익을 위해 이뤄져야 한다. Ineffable에서 내가 벌어들이는 어떤 돈이든 가능한 한 많은 생명을 구하는 고임팩트 자선단체로 갈 것"이라고 강조했다.</p>
<p>실버는 구글 딥마인드 CEO 데미스 허사비스(Demis Hassabis)와 어린 시절 체스 대회에서 처음 만나 평생의 친구이자 협력자가 됐다. 두 사람은 실버가 딥마인드를 떠난 뒤에도 친밀한 관계를 유지하고 있다. 실버는 딥마인드를 떠난 이유에 대해 "이 접근에 100% 집중하는 엘리트 AI 연구소가 존재하는 것이 정말 중요하다고 느낀다. LLM에만 매달리는 다른 어딘가의 한 귀퉁이가 되어서는 안 된다"고 설명했다.</p>
<p>실버는 LLM 접근의 한계를 간단한 사고 실험으로 설명했다. 시간을 거슬러 지구가 평평하다고 믿던 시대에 LLM을 풀어 놓는다고 가정하면, 현실 세계와 상호작용할 수 없는 그 시스템은 자체 코드를 계속 개선하더라도 여전히 평면지구론자로 남아 있을 것이라는 얘기다. 반면 스스로 세상을 학습하는 AI는 자체적으로 새로운 과학적 발견을 해낼 수 있다고 그는 말했다.</p>
<p>실버는 바둑 같은 제한된 세계에서 현실 세계의 엄청난 복잡성으로 넘어가는 방법으로, AI 에이전트를 시뮬레이션 안에 두는 방식을 본다고 밝혔다. 시뮬레이션의 구체적 형태는 공개를 꺼렸지만, 이러한 환경에서 에이전트들이 목표를 달성하고 서로 협력하는 법을 학습할 수 있다고 설명했다. 또한 시뮬레이션 안에서 AI 에이전트가 다른 존재(보다 낮은 지능 포함)에 어떻게 행동하는지 관찰함으로써 안전성 문제에도 접근할 수 있다고 덧붙였다.</p>
<p>Ineffable Intelligence에 투자한 라이트스피드 벤처스(Lightspeed Ventures)의 공동창업자 겸 파트너 라비 므하트레(Ravi Mhatre)는 실버를 "세계적 수준의 연구자"라고 평가하며, 그의 경력 자체가 "인간의 사전 지식 없이 지능을 확장할 수 있다는 일관된 주장"이라고 말했다. 시쿼이아 캐피탈(Sequoia Capital)의 VC 소냐 황(Sonya Huang) 역시 "진정으로 기초적인 작업을 해낸 사람은 한 손에 꼽을 만큼 적다. 데이브가 그중 한 명"이라고 평가했다.</p>
<p>실버의 멘토인 리치 서튼(Rich Sutton)은 오랜 협력자 앤드류 바토(Andrew Barto)와 함께 초기 강화학습 알고리즘 개발 공로로 2025년 튜링 어워드(Turing Award)를 수상했다. 강화학습은 챗봇을 만들 때 인간 피드백으로 LLM 출력을 다듬는 데 활용됐고, 최근에는 LLM 기반 AI가 수학·프로그래밍 등 복잡한 문제를 푸는 능력을 학습하는 데에도 기여해 왔다. 실버는 "순수 과학의 관점에서, 이것은 우리가 떠날 수 있는 가장 중요한 과학적 임무라고 본다"고 말했다.</p>