마이크로소프트, 자연어로 AI 동작 검증하는 오픈소스 도구 'ASSERT' 공개
마이크로소프트가 현지시간 화요일 애플리케이션별 AI 동작을 검증하는 오픈소스 프레임워크 'ASSERT'를 공개했다. ASSERT는 'Adaptive Spec-driven Scoring for Evaluation and Regression Testing(평가·회귀 테스트를 위한 적응형 사양 기반 채점)'의 약자다.
그동안 AI 연구자와 연구소들은 안전성·컴플라이언스부터 아첨 성향·정렬에 이르기까지 모델을 평가하는 역량을 크게 끌어올렸다. 하지만 기업과 개발자에게는 자사의 특정 제품이나 서비스에서 AI 시스템이 의도한 대로 작동하는지 확인해야 한다는 새로운 구체적 과제가 남아 있다.
ASSERT는 목표·정책·의도한 동작을 적은 고수준 자연어 설명을 AI를 이용해 조사 가능한 정밀 채점 테스트로 바꿔, 애플리케이션별 AI 동작 평가를 쉽게 만든다는 것이 마이크로소프트의 설명이다.
작동 방식은 이렇다. AI 모델의 기대 동작과 정책을 평문으로 입력받아 허용·비허용 동작의 구조화된 집합으로 변환하고, 문제 시나리오와 테스트 케이스를 생성한 뒤 대상 시스템에 실행하고 결과를 채점한다. 또 AI 시스템이 거치는 경로를 중간 동작과 도구 호출까지 기록해, 개발자가 실패가 일어난 지점을 들여다볼 수 있게 한다.
개발자는 평가 범위를 더 다듬고 싶다면 시스템 컨텍스트와 도구, 제약 조건을 직접 제공할 수도 있다.
예를 들어 문서 조사용 AI 에이전트에 대해 사외 인물에게 이메일을 보내지 말 것, 기밀 정보는 최고경영진으로 제한할 것, 사전 맥락을 고려해 간결한 요약을 제공할 것 같은 규칙을 지정하면, ASSERT가 그 규칙을 바탕으로 시스템이 규칙을 지속적으로 지키는지 점검하는 테스트 케이스를 만들어낸다.
마이크로소프트는 ASSERT가 애플리케이션이나 제품의 맥락·정책·도구에 따라 동작이 달라져야 하는 AI 모델에서, 더 넓고 일반적인 평가가 메우지 못하는 공백을 채운다고 설명했다.
마이크로소프트 책임 있는 AI 부문 최고제품책임자(CPO) 세라 버드는 "우리가 배운 것 중 하나는 좋은 의사결정을 내리는 데 평가가 절대적으로 중요하다는 점"이라며 "AI 시스템의 동작을 이해하지 못하면 그것이 조직의 기준을 충족하는지 알기 어렵다"고 말했다. 그는 진정으로 신뢰할 수 있는 시스템을 원한다면 애플리케이션별 차원을 훨씬 더 많이 평가해야 한다고 덧붙였다.
버드는 ASSERT를 시스템을 구축하는 단계와 배포 이후는 물론, 지속적 모니터링에까지 쓸 수 있다고 설명했다.
이번 공개는 AI 업계의 점진적이지만 폭넓은 변화 속에서 나왔다. 모델이 더 강력해지면서 연구자들은 반복 가능한 테스트와 회귀 점검에 주목하고 있으며, 스탠퍼드의 HELM, MLCommons의 AILuminate, METR 같은 평가 단체가 모델이 다양한 조건에서 어떻게 동작하는지 측정하는 벤치마크를 내놓고 있다.