엔비디아, 데이비드 실버의 AI 연구소 Ineffable Intelligence와 RL 인프라 협력
엔비디아가 알파고 설계자 데이비드 실버(David Silver)가 설립한 런던 소재 AI 연구소 'Ineffable Intelligence'와 대규모 강화학습(RL) 인프라를 공동 설계하는 엔지니어링 협력에 들어갔다. Ineffable Intelligence는 지난주 스텔스 모드에서 외부에 모습을 드러냈다.
젠슨 황 엔비디아 창립자 겸 CEO는 "AI의 다음 프런티어는 경험에서 끊임없이 학습하는 '슈퍼러너(superlearners)'"라며 "Ineffable Intelligence와 함께 대규모 강화학습용 인프라를 공동 설계하게 돼 기쁘다"고 밝혔다.
실버는 강화학습 분야의 선구자 중 한 명으로, 이 접근을 새로운 패러다임으로 끌어올리는 데 집중하고 있다. 그는 "연구자들은 사람이 이미 알고 있는 것을 모두 아는 시스템을 만드는 비교적 쉬운 AI 문제는 거의 해결했다"며 "이제 시스템이 스스로 새로운 지식을 발견하도록 만드는 더 어려운 문제를 풀어야 하고, 이를 위해서는 경험으로부터 학습하는 매우 다른 접근이 필요하다"고 말했다.
강화학습은 고정된 인간 데이터셋이 시스템을 통과하는 사전학습과 달리, 워크로드가 데이터를 그때그때 생성한다. 시스템이 행동하고 관찰하고 채점하고 갱신하는 일을 짧은 루프 안에서 계속 반복해야 하기 때문에 인터커넥트·메모리 대역폭·서빙에 사전학습과는 다른 압력을 가한다.
또한 인간 언어와 같은 사람 데이터와는 성격이 다른 풍부한 경험 데이터에서 학습하기 때문에 새로운 모델 구조와 학습 알고리즘이 필요할 수 있다고 양사는 설명했다. 두 회사 엔지니어들은 이를 뒷받침할 학습 파이프라인을 어떻게 만들지 함께 탐색하기 위해 팀을 꾸렸다.
이번 작업은 NVIDIA Grace Blackwell에서 시작되며, 다가오는 NVIDIA Vera Rubin 플랫폼을 가장 먼저 탐색하는 사례 중 하나가 될 것이라고 엔비디아는 밝혔다. 두 회사는 인간 데이터를 넘어 시뮬레이션과 경험으로 학습하는 모델 시대에 필요한 차세대 하드웨어·소프트웨어 요건을 함께 이해하는 것이 목표라고 설명했다.
양사는 이번 인프라가 제대로 자리잡으면 매우 복잡하고 풍부한 환경에서 전례 없는 규모의 강화학습이 가능해져, 에이전트가 모든 분야에서 새로운 돌파구를 발견할 수 있을 것이라고 강조했다.