Anthropic, Claude Opus 4.7 정식 출시… Opus 4.6 대비 코딩 벤치마크 13% 향상
Anthropic이 최신 모델 Claude Opus 4.7을 정식 출시했다. Opus 4.6 대비 고난도 소프트웨어 엔지니어링 작업에서 두드러진 향상을 보이며, 사용자들은 기존에 면밀한 감독이 필요했던 어려운 코딩 작업을 Opus 4.7에 믿고 맡길 수 있다고 평가한다.
Opus 4.7은 복잡하고 장시간 실행되는 작업을 엄격하고 일관되게 처리하며, 지시사항에 정확하게 주의를 기울이고 결과를 보고하기 전에 자체 출력물을 검증하는 방법을 고안한다. 더 높은 해상도의 이미지를 인식하는 등 비전 성능도 크게 개선됐고, 인터페이스·슬라이드·문서 등 전문 작업 결과물의 품질이 향상됐다.
Anthropic은 Opus 4.7이 가장 강력한 모델인 Claude Mythos Preview보다는 전반적으로 제한적이지만, 다양한 벤치마크에서 Opus 4.6을 상회한다고 설명했다. 93-task 코딩 벤치마크에서 Opus 4.7은 Opus 4.6보다 13% 높은 해결률을 기록했으며, Opus 4.6과 Sonnet 4.6 모두 풀지 못했던 네 개 과제도 해결했다.
사이버보안 측면에서 Opus 4.7은 Anthropic이 지난주 발표한 Project Glasswing의 연장선상에 있다. 회사는 Mythos Preview의 출시를 제한적으로 유지하고 덜 강력한 모델에서 새 사이버 세이프가드를 먼저 시험한다는 방침을 밝혔으며, Opus 4.7은 해당 방침이 적용된 첫 모델이다. 금지 또는 고위험 사이버보안 용도로 판단되는 요청을 자동으로 감지·차단하는 세이프가드가 탑재됐다.
취약점 연구, 모의침투, 레드팀 등 합법적 사이버보안 용도로 Opus 4.7을 활용하려는 전문가를 위해 Cyber Verification Program이 새롭게 개설됐다. Anthropic은 실제 배포 과정에서 확보한 데이터가 향후 Mythos 계열 모델의 광범위한 공개라는 궁극적 목표에 기여할 것이라고 덧붙였다.
가격은 Opus 4.6과 동일하게 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러로 책정됐다. 개발자는 claude-opus-4-7 이름으로 Claude API를 통해 모델을 호출할 수 있으며, Claude 제품군 전반과 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서도 이용 가능하다.
얼리 액세스 파트너들은 Opus 4.7의 에이전트 능력에 주목했다. 내부 리서치 에이전트 벤치마크에서 Opus 4.7은 6개 모듈 전반 종합 점수 0.715로 공동 1위를 기록했으며, General Finance 모듈에서는 0.813으로 Opus 4.6의 0.767을 상회했다. 법률 AI 스타트업 Harvey의 BigLaw Bench에서는 고강도 설정 기준 90.9%의 정확도를 보였고, CursorBench에서는 Opus 4.6의 58%를 넘어 70%를 기록했다.
프로덕션 환경 벤치마크도 공개됐다. Rakuten-SWE-Bench에서 Opus 4.7은 Opus 4.6보다 3배 많은 프로덕션 과제를 해결했고, 코드 품질과 테스트 품질 항목에서 두 자릿수 향상을 기록했다. Notion은 복잡한 다단계 워크플로에서 Opus 4.6 대비 14% 개선 효과를 얻으면서도 토큰 사용량이 줄었고 도구 오류는 3분의 1 수준으로 감소했다고 전했다. CodeRabbit은 코드 리뷰 작업에서 재현율이 10% 이상 향상돼 가장 복잡한 PR에서도 찾기 어려운 버그를 포착했다고 밝혔다.