연구2026년 5월 7일 오전 08:03

Apple ML Research, 'SFI-Bench' 공개… 1,700개+ 질문으로 멀티모달 LLM의 공간-기능적 지능 평가, Mila·NYU 공동 연구

Apple Machine Learning Research가 멀티모달 LLM의 공간-기능적 지능을 측정하기 위한 새로운 비디오 기반 벤치마크 'Spatial-Functional Intelligence Benchmark(SFI-Bench)'를 공개했다. SFI-Bench는 1,700개가 넘는 질문을 포함하며, 일인칭 시점(egocentric)으로 촬영된 다양한 실내 영상 스캔에서 도출됐다.

연구진은 진정한 공간 지능이 단순히 '사물이 어디에 있는지' 아는 저수준 기하학적 지각을 넘어 '사물이 무엇을 위한 것인지' 이해하는 단계로 진화해야 한다고 주장한다. 멀티모달 에이전트가 접지된 지능(grounded intelligence)에 도달하려면 단순한 지각을 넘어 고차원 인지 능력이 필요하다는 문제의식이다.

기존 VSI-Bench 같은 벤치마크는 기초적인 기하학적 단계 평가에는 효과적이지만, 접지된 지능에 필요한 더 높은 수준의 인지 능력을 충분히 검증하지 못한다는 한계가 지적됐다. 이 격차를 메우기 위해 SFI-Bench가 도입됐다는 것이 연구진의 설명이다.

SFI-Bench는 두 가지 상보적 추론 차원을 체계적으로 평가하도록 설계됐다. 첫째 'Structured Spatial Reasoning'은 복잡한 레이아웃을 이해하고 일관된 공간 표상을 형성하는 능력이다. 둘째 'Functional Reasoning'은 객체의 어포던스(affordance)와 맥락 의존적 효용을 추론하는 능력이다.

구체적인 과제로는 조건부 카운팅(conditional counting), 멀티홉 관계 추론(multi-hop relational reasoning), 기능적 페어링(functional pairing), 지식 기반 문제 해결(knowledge-grounded troubleshooting)이 포함된다. 이러한 과제는 모델이 지각·기억·추론을 통합하는 능력을 직접 시험한다고 연구진은 강조했다.

실험 결과 현재의 멀티모달 LLM들은 공간 기억을 기능적·외부 지식과 통합하는 데 일관되게 어려움을 보였다. 연구진은 이 통합 부족이 멀티모달 모델의 '결정적 병목(critical bottleneck)'이라고 평가했다.

연구는 Mila와 캐나다 몬트리올대(Université de Montréal), 미국 뉴욕대(New York University) 소속 연구자들이 참여한 공동 작업으로 수행됐으며, 일부 저자는 Apple 재직 중 작업을 진행했다고 표기됐다.

Apple ML Research는 SFI-Bench가 인지적으로 더 능력 있고 진정으로 접지된 멀티모달 에이전트를 향한 진척도를 측정·견인하는 필수 도구가 될 것이라고 밝혔다.

Apple ML Research, 'SFI-Bench' 공개… 1,700개+ 질문으로 멀티모달 LLM의 공간-기능적 지능 평가, Mila·NYU 공동 연구

관련 기사