연구2026년 3월 26일 PM 08:02

ARC-AGI-3 공개, 최고 AI 모델도 정답률 1% 미만… AGI 주장에 냉수

프랑수아 숄레(François Chollet)가 이끄는 ARC Prize Foundation이 대화형 추론 벤치마크의 최신 버전인 ARC-AGI-3를 공개했다. 인간은 첫 시도에서 100%의 과제를 해결할 수 있지만, 최고 성능의 AI 모델조차 정답률 1%에도 미치지 못하는 결과가 나왔다.

프런티어 모델 중 구글의 Gemini Pro가 0.37%로 가장 높은 점수를 기록했으며, GPT 5.4 High가 0.26%, Opus 4.6이 0.25%, Grok-4.20은 0%를 기록했다. AI 업계가 AGI(범용 인공지능)의 문턱에 와 있다고 주장하는 것과 극명한 대비를 이루는 결과다.

ARC-AGI-3에서 에이전트들은 어떤 지시사항도 없이 게임과 같은 시나리오를 마주하며, 규칙을 스스로 발견하고 목표를 설정한 뒤 처음부터 전략을 수립해야 한다.

각 AI 연구소들은 이전 버전의 테스트에 수백만 달러를 투자해 모델을 훈련시켰다. 그 결과 ARC-AGI-2의 점수는 1년도 채 안 되는 기간에 3%에서 약 50%까지 끌어올렸다.

이번 챌린지에는 100만 달러의 상금이 걸려 있다. 공동창업자 마이크 크눕(Mike Knoop)은 프런티어 연구소들이 이전 버전들보다 V3에 훨씬 더 많은 관심을 기울이고 있다고 밝혔다.

새로운 ARC-AGI 버전이 나올 때마다 최고 모델들이 1% 미만으로 초기화되는 것은 충격적이지만, 이전 테스트가 보여준 것처럼 프런티어 연구소들이 얼마나 빠르게 점수를 끌어올릴지가 더 놀라울 것이다. 그것이 진정한 추론 능력의 발전인지, 아니면 더 비용이 많이 드는 무차별 대입인지를 규명하는 것이 바로 숄레가 V3를 만든 이유다.

ARC-AGI-3 공개, 최고 AI 모델도 정답률 1% 미만… AGI 주장에 냉수

관련 기사