앤스로픽, 오퍼스 4.5 출시... 코딩 벤치마크 최초 80% 돌파
앤스로픽이 자사의 플래그십 AI 모델인 클로드 오퍼스 4.5를 공식 출시했다. 이번 출시로 9월의 소넷 4.5, 10월의 하이쿠 4.5에 이어 4.5 시리즈가 완성됐다. 오퍼스 4.5는 코딩, 도구 사용, 일반적인 문제 해결 등 여러 벤치마크에서 최고 수준의 성능을 기록하며 업계의 주목을 받고 있다.
특히 주목할 만한 성과는 코딩 능력 평가 지표인 SWE-Bench Verified에서 80%를 초과한 점이다. 이는 대규모 언어 모델 역사상 최초로 이 문턱을 넘은 것으로, AI의 실제 소프트웨어 개발 능력이 새로운 단계에 접어들었음을 보여주는 중요한 이정표로 평가받고 있다. SWE-Bench는 실제 소프트웨어 엔지니어링 작업을 평가하는 가장 엄격한 벤치마크 중 하나로 알려져 있다.
앤스로픽은 성능 향상과 함께 실용적인 활용성을 높이기 위한 새로운 통합 기능도 발표했다. 오퍼스 4.5는 크롬 브라우저와 마이크로소프트 엑셀에 직접 통합되어 사용자들이 일상적으로 사용하는 도구 안에서 AI 어시스턴트를 활용할 수 있게 됐다. 이는 별도의 애플리케이션을 전환할 필요 없이 작업 흐름 내에서 자연스럽게 AI를 사용할 수 있도록 한다.
크롬 통합을 통해 사용자들은 웹 브라우징 중 즉시 클로드의 도움을 받을 수 있으며, 엑셀 통합은 데이터 분석과 스프레드시트 작업에서 AI의 강력한 기능을 활용할 수 있게 한다. 이러한 통합은 앤스로픽이 AI 기술을 전문가들이 매일 의존하는 생산성 소프트웨어 생태계에 깊이 내재시키려는 전략의 일환으로 해석된다.
이번 출시는 OpenAI의 GPT 시리즈와 Google의 제미나이 등 경쟁 모델들과의 치열한 경쟁 속에서 이루어졌다. 특히 코딩 능력에서의 획기적인 성과는 AI 개발 도구 시장에서 앤스로픽의 입지를 강화할 것으로 예상된다. 개발자 커뮤니티에서는 이미 80% 돌파에 대한 논의가 활발하게 진행되고 있다.
앤스로픽은 4.5 시리즈를 통해 다양한 용도와 가격대의 모델 라인업을 완성했다. 하이쿠 4.5는 빠르고 효율적인 작업에, 소넷 4.5는 균형 잡힌 성능과 비용에, 오퍼스 4.5는 최고 수준의 성능이 필요한 복잡한 작업에 각각 최적화되어 있다. 업계 전문가들은 이러한 계층화된 접근이 다양한 기업 고객의 요구를 충족시킬 수 있을 것으로 전망하고 있다.
앤스로픽 측은 오퍼스 4.5가 API를 통해 즉시 사용 가능하며, 크롬과 엑셀 통합 기능은 단계적으로 출시될 예정이라고 밝혔다. 회사는 향후 더 많은 생산성 도구와의 통합을 계획하고 있으며, 기업 고객을 위한 맞춤형 솔루션도 준비 중인 것으로 알려졌다.