연구2026년 5월 11일 PM 10:34
구글 딥마인드, 'AI 공동수학자' 공개… FrontierMath Tier 4서 48% 신기록
구글 딥마인드가 Gemini 3.1 기반 에이전트형 시스템 'AI 공동수학자(AI co-mathematician)' 논문을 공개했다. 수학자가 미해결 문제를 다루도록 돕는 도구로, 연구 수준 수학 벤치마크에서 새로운 최고치를 기록했다.
성능 지표는 Epoch AI의 FrontierMath Tier 4 벤치마크다. 시스템은 48% 정확도로 리더보드 1위에 올랐다. Gemini 3.1 Pro의 raw score 19%를 두 배 이상 끌어올린 수치다.
딥마인드는 Claude Code와 같은 AI 코딩 환경을 본떠 도구를 설계했다. 에이전트 팀과 내장 리뷰 사이클을 수학 연구에 도입한 형태다.
내부적으로 코디네이터 에이전트가 연구 과제를 병렬 워크스트림으로 분할한다. 각 워크스트림의 서브 에이전트는 코드를 작성하고, 관련 문헌을 검색하며, 증명을 시도한다.
옥스퍼드대학교 Marc Lackenby 교수는 이 시스템을 활용해 Kourovka Notebook에 수록된 미해결 문제 하나를 해결했다. Lackenby는 시스템이 한 번 거부했던 출력 안에서 '정말, 정말 영리한 증명 전략(really, really clever proof strategy)'을 찾아냈다고 밝혔다.
딥마인드 측은 AI가 이미 수학 분야의 발견을 가속해 왔으며, 코딩처럼 에이전틱 파이프라인이 한 단계 더 진전을 가져올 것으로 평가했다. Lackenby의 사례는 AI가 최정상급 연구자의 작업을 대체하기보다 가속하는 방향으로 활용될 수 있음을 보여준다.