마이크로소프트, 美 CAISI·英 AISI와 프런티어 모델 평가 협력 공식화… NIST와 적대적 평가 공동 개발·AILuminate 인도·일본·한국·싱가포르 다국어 확장
마이크로소프트가 미국의 Center for AI Standards and Innovation(CAISI), 영국의 AI Security Institute(AISI)와 새로운 협약을 체결했다고 공식 발표했다. 협약의 목표는 마이크로소프트의 프런티어 모델을 공동 테스트하고 세이프가드를 평가하며, 국가 안보와 대규모 공공 안전 관련 위험을 완화하는 등 AI 테스트·평가 과학을 발전시키는 데 있다.
마이크로소프트는 지속적이고 엄격한 테스트가 첨단 AI 시스템에 대한 신뢰와 확신을 구축하는 데 필수적이라고 강조했다. 잘 설계된 테스트는 시스템이 의도대로 작동하고 설계 목적의 이익을 제공하는지 확인하는 데 도움이 되며, 첨단 AI 시스템이 배포된 이후 발생할 수 있는 AI 기반 사이버 공격이나 AI 시스템의 범죄적 오용 같은 위험에 선제적으로 대응할 수 있게 한다는 설명이다.
회사는 자체적으로 다양한 형태의 AI 테스트를 정기적으로 수행하고 있지만, 국가 안보와 대규모 공공 안전 위험에 대한 테스트는 정부와의 협력이 필수적이라고 밝혔다. 이러한 테스트는 미국의 CAISI, 영국의 AISI 같은 기관과 이들이 협력하는 정부 기관이 보유한 깊이 있는 기술·과학·국가 안보 전문성에 의존하기 때문이다. 정부의 전문성과 마이크로소프트의 글로벌 규모 AI 시스템 구축·배포 경험을 결합해 위험을 사전에 예측하고 관리할 수 있게 된다는 것이다.
미국에서는 CAISI와 함께 마이크로소프트가 NIST와 협력해 적대적 평가(adversarial assessments) 방법론을 개선한다. 이는 예기치 않은 동작, 오용 경로, 실패 모드를 탐색하는 방식으로 AI 시스템을 시험하는 작업으로, 안전 임계 운전 시나리오에서 에어백·안전벨트·제동 시스템의 효과성과 신뢰성을 시험하는 스트레스 테스트에 비유된다. 양측은 첨단 AI 시스템의 안전·보안·견고성 위험을 평가하기 위한 공유 프레임워크, 데이터셋, 워크플로 등 보다 체계적이고 재현 가능한 평가 접근법을 공동 개발한다. 이 작업은 마이크로소프트 AI Red Team의 새로운 연구와 도구를 기반으로 손상된 모델을 대규모로 탐지하는 역량으로 확장된다.
영국에서는 AISI와 함께 프런티어 안전·보안 관련 연구를 진행하며, 고위험 능력의 평가 방법과 이를 다루기 위한 세이프가드의 효과성을 평가하는 방법을 다룬다. 또한 대화형 AI 시스템이 민감한 맥락에서 사용자와 어떻게 상호작용하는지 살펴보는 사회적 회복력(societal resilience) 연구도 포함된다.
마이크로소프트는 이번 협력이 측정 과학, 평가 방법론, 실무 테스트 워크플로, 실제 위험 완화 효과를 개선하기 위해 설계됐다고 설명했다. 세이프가드를 더 강화하고 평가의 신뢰성을 높일 수 있는 엄격하고 실용적인 접근에 대한 양측의 공통된 의지를 반영한다는 평가다.
회사는 어떤 단일 조직도 이러한 과제를 혼자서 해결할 수는 없다고 밝히며, 글로벌 AI 연구소들과의 연구·평가 협력을 ‘International Network for AI Measurement, Evaluation and Science’를 통해 추진한다고 덧붙였다. 이와 함께 프런티어 AI 안전·보안의 과학과 실무를 발전시키기 위한 ‘Frontier Model Forum(FMF)’에도 참여 중이며, FMF를 통해 다른 주요 AI 개발사들과 함께 독립 연구 지원, 공유 평가 방법론 개발, 위험 완화 전략의 투명성 제고를 추진한다.
MLCommons에도 기여하고 있는데, 이는 AILuminate를 비롯한 안전·보안 벤치마크군 같은 테스트 도구를 개발·운영하는 다자 비영리 단체다. 마이크로소프트는 지난 2월 인도, 일본, 한국, 싱가포르의 기관들과 함께 AILuminate를 다국어·다문화·멀티모달 평가까지 확장하는 작업이 진행 중이라고 발표한 바 있다. 이를 통해 전 세계 사용자가 사용하는 언어와 문화적 맥락에서도 AI 시스템이 잘 작동하도록 하겠다는 취지다.
마이크로소프트는 AI 역량이 발전할수록 이를 뒷받침하는 테스트와 세이프가드의 엄격성도 함께 진전돼야 한다고 강조했다. 이번 협력에서 얻은 학습 결과는 AI 시스템의 설계·테스트·배포 방식에 직접 반영해 평가 과학의 진보가 고객에게 더 안전하고 안정적인 제품으로 이어지도록 할 계획이며, 협력이 진행됨에 따라 학습한 내용을 공유하고 인사이트와 모범 사례를 AI 테스트 전반에 확장 적용할 기회를 모색하겠다고 밝혔다.