연구2026년 6월 12일 AM 12:08

스스로 하니스와 가중치 고쳐 성능 높이는 자기개선 AI 프레임워크 'SIA' 공개

언어모델 에이전트가 스스로 성능을 끌어올리는 자기개선 AI 프레임워크 'SIA'의 공식 구현이 공개됐다. 헤바르(Hebbar) 등 연구진의 2026년 논문 'SIA: 하니스와 가중치 갱신을 통한 자기개선 AI'에 기반한 것으로, 언어모델 에이전트가 과제 특화 에이전트의 하니스(실행 구조)와 가중치를 모두 스스로 갱신하는 자기개선 루프를 구현한다.

논문은 베이스라인 대비 로벤치(LawBench)에서 56.6%의 성능 향상, GPU 커널에서 91.9%의 실행시간 단축, 단일세포 RNA 노이즈 제거에서 502%의 개선을 달성했다고 보고한다. SIA는 모델이든 에이전트든 어떤 AI 시스템이라도 특정 벤치마크 과제에서 성능을 자율적으로 끌어올리는 것을 목표로 한다.

SIA는 세 종류의 에이전트가 협력하는 구조다. 메타 에이전트는 과제 설명을 읽고 그에 맞는 초기 타깃 에이전트를 생성한다. 타깃 에이전트는 과제 수행을 시도하며 자신의 행동과 결과를 기록한다. 피드백·개선 에이전트는 타깃 에이전트의 수행 로그를 검토해 개선점을 찾아내고 타깃 에이전트를 갱신한다. 이 과정이 세대를 거듭하며 반복된다.

벤치마크 성과도 함께 공개됐다. 실제 캐글 머신러닝 대회들을 모은 오픈AI MLE-Bench Hard에서는 에이전트가 전체 머신러닝 파이프라인을 직접 작성·실행·반복해야 하는데, SIA는 테스트한 모든 세대에서 1위를 기록했다.

중국 법원 판례 설명으로부터 191개 범죄 혐의 범주를 예측하는 로벤치에서는 SIA-W+H 구성이 Top-1 정확도 70.1%에 도달해, 기존 최고 성능인 45%를 넘어섰다. 알파폴드-3의 트라이앵글 멀티플리케이티브 업데이트를 트라이톤 커널로 구현·최적화하는 과제에서는 정확성을 유지하면서 H100 지연시간 목표를 맞춰 베이스라인 대비 14배 빠른 속도를 냈다.

단일세포 RNA 시퀀싱 데이터의 결측 유전자 발현값을 보정하는 scRNA-seq 노이즈 제거 과제에서는 SIA-W+H가 0.289 MSEnorm을 기록해 기존 최고 성능 0.220을 앞섰다.

SIA에는 gpqa, lawbench, longcot-chess, spaceship-titanic 등 네 가지 과제가 기본 내장돼 있다. 에이전트 구현체는 클로드 모델 전용인 클로드 에이전트 SDK 기반과, 제미나이·오픈AI·앤스로픽 등 여러 공급자를 지원하는 오픈핸즈(OpenHands) 기반 두 종류가 제공된다.

명령줄 도구는 자기개선 루프를 돌리는 sia run과 실행 결과를 시각화하는 sia web 두 하위 명령으로 구성된다. 실행 중에는 라이브 대시보드가 자동으로 떠 세대별 진행 상황을 지켜볼 수 있으며, 캐글 API를 통해 어떤 MLE-Bench 대회로부터도 과제 디렉터리를 자동으로 구성할 수 있다.

스스로 하니스와 가중치 고쳐 성능 높이는 자기개선 AI 프레임워크 'SIA' 공개

관련 기사