목록으로
투자2026년 4월 28일 AM 12:35

딥마인드 알파고 창시자 데이비드 실버, 'Ineffable Intelligence' 창업… 시드 11억 달러·기업가치 51억 달러로 강화학습 '슈퍼러너' 추구

2016년 구글 딥마인드에서 바둑 AI '알파고(AlphaGo)'를 개발해 슈퍼인텔리전스의 가능성을 처음으로 보여준 데이비드 실버가 자체 회사 'Ineffable Intelligence'를 세웠다. 회사는 강화학습(reinforcement learning)에 집중해 인간 지능을 여러 영역에서 넘어서는 '슈퍼러너(superlearners)'를 만드는 것을 목표로 삼는다. 강화학습은 AI 모델이 시행착오를 통해 새 능력을 습득하는 방식이다.

이 노선은 거대언어모델(LLM)의 코딩·연구 능력을 활용해 슈퍼인텔리전스에 도달하려는 대다수 AI 기업의 접근법과 정반대다. 런던 사무실에서 와이어드와 인터뷰한 실버는 LLM 기반 접근이 결국 실패할 것이라고 잘라 말한다. LLM이 아무리 뛰어나도 결국 '인간의 지능'으로부터만 학습하고, 자체적으로 지능을 만들어내지는 못한다는 이유에서다.

실버는 "인간 데이터는 놀라운 지름길을 제공한 일종의 화석 연료와 같다"며 "스스로 학습하는 시스템은 한계 없이 영원히 학습할 수 있는 재생 연료라 볼 수 있다"고 비유했다. 그는 자신의 미션을 "슈퍼인텔리전스와의 퍼스트 컨택트(first contact)"로 정의하며 "진짜 슈퍼인텔리전스는 새로운 형태의 과학·기술·정부·경제를 스스로 발견해야 한다"고 강조했다.

Ineffable Intelligence는 현재까지 시드 라운드에서 11억 달러를 조달했으며 기업가치는 51억 달러로 평가받았다. 와이어드는 이를 유럽 AI 기준에서 거대한 금액이라고 평가했다. 실버는 구글 딥마인드를 비롯한 프런티어 연구소들에서 최고 수준의 AI 연구자들을 영입한 것으로 전해졌다.

그는 자신의 지분에서 발생하는 모든 수익을 자선단체에 기부하겠다고 밝혔다. 성공할 경우 그 금액은 수십억 달러에 이를 수 있다. 실버는 "슈퍼인텔리전스에 집중하는 회사를 세우는 것은 막중한 책임"이라며 "이는 인류의 이익을 위해 이뤄져야 하는 일이고, 내가 Ineffable에서 벌어들이는 모든 돈은 가능한 많은 생명을 구하는 고임팩트 자선단체로 갈 것"이라고 말했다.

구글 딥마인드 CEO 데미스 허사비스와는 어린 시절 체스 토너먼트에서 만나 평생의 친구이자 협력자가 됐다. 두 사람은 실버가 딥마인드를 떠난 뒤에도 가까운 관계를 유지하고 있다. 실버는 결별 이유에 대해 "이 접근법에 100% 집중하는 엘리트 AI 연구소가 반드시 필요하다고 느꼈다. LLM에 헌신하는 또 다른 곳의 한 귀퉁이로는 안 된다"고 설명했다.

LLM의 한계에 대해 실버는 사고 실험을 제시했다. "지구가 평평하다고 믿던 시대로 거대언어모델을 보낸다면, 현실 세계와 상호작용할 수 없는 그 시스템은 자체 코드를 아무리 개선해도 평면지구설을 신봉한 채로 머무를 것"이라는 설명이다. 반면 스스로 세계를 학습할 수 있는 AI는 자신만의 과학적 발견을 이뤄낼 수 있다고 본다. 실버는 현재 AI의 위상을 다윈 이전의 생물학에 비유하며, 통합된 시각이 등장하기 전 단계에 머물러 있다고 진단했다.

Ineffable Intelligence의 핵심 과제는 바둑 같은 폐쇄된 환경에서 현실 세계의 무한한 복잡성으로 어떻게 일반화하느냐다. 실버는 AI 에이전트를 시뮬레이션 안에 배치하는 방식이 해법이라고 시사했다. 시뮬레이션의 구체적 형태는 공개하지 않았지만, 에이전트가 목표 달성과 상호 협력을 학습할 수 있게 하는 구조라고 설명했다. 안전성에 대해서도 "시뮬레이션 내에서 AI가 다른 존재, 특히 자신보다 낮은 지능에 대해 어떻게 행동하는지 직접 관찰할 수 있다"며 인간 행동 학습에 의존하지 않는 접근이 오히려 정렬(alignment)에 유리할 수 있다고 주장했다.

투자자 라비 마트레(Ravi Mhatre, Lightspeed Ventures 공동창업자·파트너)는 실버를 "세계 정상급 연구자"라며 "그의 커리어는 본질적으로 인간의 사전지식 없이 지능을 확장할 수 있다는 단일하고 일관된 주장"이라고 평했다. Sequoia Capital의 VC 소냐 황(Sonya Huang)은 "진정한 기초 연구를 해낸 사람은 한 줌도 안 되는데, 데이브가 그중 한 명"이라며 막대한 컴퓨팅 자원과 시뮬레이션 정교화의 발전이 실버 노선의 타당성을 뒷받침한다고 말했다.

실버의 멘토 리치 서튼(Rich Sutton)은 오랜 협력자 앤드루 바토(Andrew Barto)와 함께 초기 강화학습 알고리즘 연구로 2025년 튜링상을 수상했다. 강화학습은 인간 피드백으로 LLM 출력을 다듬어 챗봇을 가능케 했고, 최근에는 LLM 기반 시스템이 수학·프로그래밍 등 복잡한 문제를 풀 수 있도록 한 핵심 기술이기도 하다. 실버와 함께 일했던 앤드루 다이(Andrew Dai)는 "데이브는 늘 새 아이디어를 테이블에 올리는 똑똑한 친구"라며 연구자들에게 자유와 존중을 주는 인물이라고 평했다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사