알파고 개발자 데이비드 실버, 강화학습 스타트업 Ineffable Intelligence로 11억 달러 시드 유치… '인간 데이터는 화석연료'
2016년 구글 딥마인드(Google DeepMind)에서 알파고(AlphaGo)를 개발해 세계에 초지능의 첫 단면을 보여줬던 데이비드 실버(David Silver)가, 자신의 새 회사 Ineffable Intelligence를 통해 다시 초지능에 도전한다. 회사는 지금까지 51억 달러 기업가치로 11억 달러 시드 펀딩을 유치했다. 유럽 AI 업계 기준으로는 막대한 규모다.
실버는 LLM(대규모언어모델) 기반 접근과는 다른 길을 택했다. Ineffable Intelligence는 AI 모델이 시행착오를 통해 새로운 능력을 학습하는 강화학습(reinforcement learning)에 집중해, 다양한 영역에서 인간 지능을 뛰어넘는 'superlearners(슈퍼러너)'를 만들겠다는 목표를 내세웠다. 이는 대다수 AI 기업들이 LLM의 코딩·연구 능력을 활용해 초지능을 만들려는 흐름과 정면으로 다르다.
실버는 LLM이 인간의 지능에서 학습할 뿐 스스로 지능을 만들지는 못한다며, 이런 접근법이 결국 실패할 것이라고 본다. 그는 런던 사무실에서 진행한 인터뷰에서 "인간 데이터는 놀라운 지름길을 제공한 일종의 화석연료"라며, "스스로 학습하는 시스템은 한계 없이 영원히 학습할 수 있는 재생연료에 비유할 수 있다"고 말했다.
그가 표현하는 자신의 미션은 "초지능과의 첫 접촉(first contact with superintelligence)"이다. 그가 말하는 초지능은 단순한 모방을 넘어, 과학·기술·정부·경제 분야에서 새로운 형태를 스스로 발견할 수 있는 수준의 무언가다. 5년 전이라면 우스꽝스럽게 들렸을 만한 미션이지만, 빅테크 CEO들이 인간 지능을 능가하고 직군 전체를 대체하는 기계를 일상적으로 언급하는 시대가 됐다.
실버는 구글 딥마인드와 다른 첨단 연구소들에서 주요 AI 연구자들을 영입했고, Ineffable에서의 지분으로 발생할 수 있는 수십억 달러 규모의 수익은 전액 자선단체에 기부하겠다고 밝혔다. 그는 "초지능에 집중한 회사를 세우는 것은 엄청난 책임이며, 인류의 이익을 위해 해야 하는 일"이라며 "Ineffable에서 벌어들이는 모든 돈은 가능한 한 많은 생명을 구할 수 있는 고임팩트 자선단체로 갈 것"이라고 말했다.
실버는 어린 시절 체스 대회에서 구글 딥마인드 CEO 데미스 하사비스(Demis Hassabis)를 처음 만났고, 두 사람은 평생의 친구이자 협업자로 남았다. 그는 LLM 외의 접근에 100% 전념하는 엘리트 AI 연구소가 필요하다는 판단으로 딥마인드를 떠났다고 설명했다.
그는 LLM 접근의 한계를 사고 실험으로 설명한다. 지구가 평평하다고 믿었던 시대로 거슬러 올라가 LLM을 풀어놓는다면, 현실 세계와 상호작용할 수 없는 그 시스템은 자기 코드를 끊임없이 개선해도 끝까지 평평한 지구설을 믿는 채로 남는다는 것이다. 반면 스스로 세상을 학습하는 AI는 자체적인 과학적 발견을 만들어낼 수 있다.
구체적인 방법론으로 실버는 시뮬레이션 안에 AI 에이전트를 두는 방식을 제안한다. 시뮬레이션의 형태에 대해서는 말을 아꼈지만, 이 방식이 에이전트가 목표를 달성하고 서로 협력하는 능력을 학습하도록 돕는다고 설명했다. 그는 시뮬레이션 안에서 에이전트가 다른 지능, 그리고 자신보다 낮은 수준의 지능에게 어떻게 행동하는지를 직접 관찰할 수 있어 안전성 측면에서도 이점이 있다고 강조했다.
투자에 참여한 라이트스피드 벤처스(Lightspeed Ventures)의 공동창업자 라비 마트레(Ravi Mhatre)는 실버를 "세계적 수준의 연구자"로 평가하며 그의 커리어 자체가 "인간의 사전지식 없이 지능을 확장할 수 있다는 단일하고 일관된 주장"이라고 말했다. 시퀘이아 캐피털(Sequoia Capital)의 소냐 황(Sonya Huang)도 "정말 기초적 작업을 한 사람은 손가락으로 꼽을 만큼 적은데, 데이브가 그중 한 명"이라며 "그의 가설에 근본적으로 동의한다"고 평가했다.
강화학습은 컴퓨터가 인간처럼 경험을 통해 학습할 수 있다는 아이디어와 함께 컴퓨터 과학 초기인 앨런 튜링(Alan Turing) 시대까지 거슬러 올라가는 알고리즘이다. 실버의 멘토인 리치 서튼(Rich Sutton)은 그의 오랜 협업자 앤드루 바토(Andrew Barto)와 함께 초기 강화학습 알고리즘을 개발한 공로로 2025년 튜링상(Turing Award)을 공동 수상한 바 있다.