앤스로픽 오퍼스 4.6, 법률 벤치마크 성능 45% 돌파 '에이전트 스웜' 기술로 전문가 영역 위협
앤스로픽이 최근 공개한 Opus 4.6 모델이 전문 법률 업무 벤치마크에서 획기적인 성능 향상을 보이며 AI 에이전트의 전문직 대체 가능성에 대한 논의에 불을 지폈다. Mercor의 에이전트 역량 테스트에서 Opus 4.6은 단일 시도 시 약 30%, 복수 시도 시 평균 45%의 정확도를 기록했다. 이는 기존 최고 성능이던 18%를 두 배 이상 뛰어넘는 수치다.
Mercor의 CEO 브렌단 푸디는 이번 성능 도약을 "상당한 발전"이라고 평가했다. 특히 주목할 점은 이 같은 변화가 극히 짧은 기간에 이루어졌다는 사실이다. 불과 몇 주 전만 해도 AI 에이전트들은 법률 벤치마크에서 25% 미만의 점수를 기록하며, 변호사 직업에 대한 즉각적인 위협은 제한적이라는 분석이 나왔었다.
이처럼 급격한 성능 향상의 비결은 Opus 4.6에 새롭게 도입된 '에이전트 스웜(agent swarms)' 기술에 있다. 에이전트 스웜은 복잡한 다단계 문제 해결을 위해 여러 AI 에이전트가 협력하는 방식으로, 단일 모델이 해결하기 어려운 전문적이고 복합적인 법률 문제에 대응할 수 있게 해준다. 이 기술은 각 에이전트가 문제의 특정 측면을 담당하고 서로 정보를 공유하며 최적의 답을 도출하는 구조로 작동한다.
법률 업무는 방대한 판례와 법령 검토, 복잡한 논리 구조 분석, 다층적인 추론 과정을 요구하는 대표적인 고도 전문 영역이다. 그동안 AI가 단순 문서 검색이나 초안 작성 보조 수준에 머물렀던 것과 달리, 이번 Opus 4.6의 성능은 AI가 실제 법률 판단과 분석 업무의 상당 부분을 담당할 수 있는 수준에 근접했음을 시사한다.
이번 사례는 AI 역량이 특정 전문 영역에서 얼마나 빠르게 진화할 수 있는지를 보여주는 중요한 지표로 받아들여지고 있다. 단 몇 주 사이에 법률 벤치마크 점수가 두 배 이상 향상된 것은, AI 모델의 발전 속도가 기존 예측을 훨씬 상회할 수 있음을 의미한다. 업계 전문가들은 이 같은 추세가 계속된다면 향후 1~2년 내에 법률, 회계, 의료 등 고도 전문직 영역에서 AI의 역할이 급격히 확대될 것으로 전망하고 있다.
한편 앤스로픽은 Opus 4.6 모델과 함께 에이전트 스웜 기술의 상세 내역을 공개하며, 이를 다양한 전문 분야로 확장할 계획임을 밝혔다. 법률 업무를 넘어 의료 진단, 금융 분석, 엔지니어링 설계 등 복잡한 의사결정이 요구되는 영역에서 AI 에이전트 협업 시스템의 적용 가능성이 주목받고 있다. AI가 전문가를 완전히 대체하기보다는, 전문가의 생산성을 획기적으로 향상시키는 강력한 도구로 자리 잡을 것이라는 전망이 힘을 얻고 있다.