앤트로픽, 오픈소스 얼라인먼트 툴 'Petri 3.0' 비영리 Meridian Labs에 이관… auditor·target 분리·'Dish' 애드온 현실성↑·Bloom 통합 심층 평가, MCP→Linux Foundation 이관과 유사 프레임
앤트로픽이 5월 7일 자사 오픈소스 얼라인먼트 테스트 툴박스 'Petri'의 개발권을 AI 평가 비영리 'Meridian Labs'에 이관한다고 발표했다. 동시에 Petri 3.0 업데이트도 함께 공개됐다.
Petri는 2025년 10월 Anthropic Fellows 프로그램의 일환으로 출시된 도구다. 어떤 대규모 언어 모델에도 적용 가능하며, 기만(deception)·아첨(sycophancy)·유해 요청 협조 등 우려되는 경향을 빠르고 손쉽게 테스트하도록 설계됐다.
Petri는 Claude Sonnet 4.5부터 모든 Claude 모델의 얼라인먼트 평가 절차에 포함돼 왔다. 별도 'auditor' 모델이 시뮬레이션한 일련의 얼라인먼트 관련 시나리오에서 새 모델 행동을 비교한 뒤, 'judge' 모델이 그 트랜스크립트를 미스얼라인 행동 기준으로 점수화하는 방식이다.
외부 기관 사용 사례로는 영국 AI Security Institute(AISI)가 모델의 AI 연구 사보타지 경향 평가에 Petri를 핵심 도구로 채택한 사례가 있다.
Petri 3.0의 주요 변경점은 세 가지다. 첫째 'Adaptability'로, auditor 모델과 target 모델을 분리해 사용자가 각 컴포넌트를 독립적으로 조정할 수 있도록 아키텍처를 대대적으로 손봤다. 둘째 'Realism'은 'Dish'라는 애드온을 통해 실제 배포 시 사용되는 모델의 실 시스템 프롬프트와 실제 'scaffold' 소프트웨어로 테스트를 돌려, 모델이 인공적인 흔적으로 평가 상황임을 눈치채는 한계를 줄인다. 셋째 'Depth'는 앤트로픽의 또 다른 오픈소스 얼라인먼트 도구 'Bloom'과 통합해, Petri의 광범위 평가와 달리 특정 행동을 깊이 있게 들여다볼 수 있게 한다.
앤트로픽은 Petri를 Meridian Labs로 이관하는 이유로 'AI 랩으로부터의 독립성 확보'를 들었다. 평가 결과가 산업계 내·외부에서 중립적이고 신뢰할 만한 것으로 받아들여지도록 하기 위함이라는 설명이다. 회사는 이번 이관을 모델 컨텍스트 프로토콜(MCP)을 Linux Foundation에 기증한 결정과 유사한 조치라고 위치 짓는다.
Meridian Labs에는 Petri와 함께 'Inspect'·'Scout' 같은 평가 도구들이 자리 잡고 있다. 앤트로픽은 "AI 모델 행동의 신뢰할 수 있는 테스트가 어느 때보다 중요한 지금, 랩·독립 연구자·정부 모두에게 열린 기술 스택을 만들어 가는 과정"이라고 의미를 부여했다.
관련 기사
美 에너지장관 Wright·NVIDIA Ian Buck, 'Genesis Mission' 공동 출연… Argonne 'Equinox' Grace Blackwell 1만개·'Solstice' Vera Rubin 10만개·5,000엑사플롭스, Hopper→Blackwell 성능 30배·와트당 25배
Mozilla, Anthropic 'Mythos'로 Firefox 취약점 271건 2개월간 탐지… '거의 false positive 없음', 커스텀 'agent harness'가 핵심
애플 ML 리서치, 이미지 캡션으로 마스크 예측 불확실성 줄이는 'TC-JEPA' 공개… sparse cross-attention 텍스트 조건화, fine-grained 시각 이해·추론서 contrastive 우위