앤스로픽, Claude Code 품질 저하 공식 포스트모템 공개… 3가지 원인 4월 20일 v2.1.116에서 모두 수정·구독자 사용량 한도 리셋
앤스로픽이 지난 한 달간 일부 사용자들로부터 제기된 Claude 응답 품질 저하 보고에 대한 공식 포스트모템을 공개했다. 회사는 이를 추적한 결과 Claude Code, Claude Agent SDK, Claude Cowork에 영향을 미친 3가지 별개의 변경 사항이 원인이었음을 확인했으며, API와 추론 레이어는 영향받지 않았다고 밝혔다.
3가지 이슈는 모두 4월 20일 v2.1.116에서 해결됐으며, 앤스로픽은 "이는 사용자가 Claude Code에서 기대해야 할 경험이 아니다"라며 4월 23일부터 모든 구독자의 사용량 한도를 리셋한다고 발표했다.
첫 번째 이슈는 추론 노력(effort) 기본값 변경이다. 2월 Claude Code에 Opus 4.6을 출시할 때 기본 추론 노력은 high였다. 이후 high 모드에서 Opus 4.6이 때때로 너무 오래 사고해 UI가 멈춘 것처럼 보이고 지연 시간과 토큰 사용량이 과도해진다는 피드백이 들어왔다. 내부 평가에서 medium 노력은 약간 낮은 지능을 보였지만 대부분 작업에서 지연이 크게 줄었고 사용량 한도 활용도 늘어, 회사는 기본값을 medium으로 변경했다.
그러나 사용자들은 Claude Code가 덜 똑똑해졌다고 보고했고, 시작 시 알림·인라인 노력 선택기·울트라싱크 복원 등 디자인 개선에도 대부분 사용자가 medium 기본값을 유지했다. 앤스로픽은 4월 7일 결정을 번복했고, 현재 Opus 4.7은 xhigh, 그 외 모든 모델은 high가 기본값이다. 이 영향은 Sonnet 4.6과 Opus 4.6에 미쳤다.
두 번째 이슈는 추론 이력 클리어링 버그다. 3월 26일 회사는 효율성 개선 차원에서 1시간 이상 유휴 상태였던 세션의 비용을 줄이기 위해 옛 사고(thinking) 섹션을 정리하는 기능을 배포했다. clear_thinking_20251015 API 헤더에 keep:1을 함께 사용했는데, 구현 버그로 인해 한 번만 정리되어야 할 것이 세션이 유휴 임계값을 한 번 넘으면 이후 모든 턴마다 가장 최근 사고 블록만 남기고 나머지를 폐기하는 동작을 반복했다.
이로 인해 Claude는 자신이 왜 그런 결정을 내렸는지에 대한 기억 없이 작업을 계속 수행하게 됐고, 사용자들이 보고한 건망증·반복·이상한 도구 선택으로 표면화됐다. 또한 사고 블록을 지속적으로 떨어뜨리면서 캐시 미스가 발생해 사용량 한도가 예상보다 빠르게 소진된다는 별도 보고도 야기했다.
메시지 큐잉 관련 내부 서버측 실험과 사고 표시 방식의 무관한 변경이라는 두 가지 실험이 대부분 CLI 세션에서 이 버그를 가렸기 때문에 외부 빌드를 테스트해도 문제가 잡히지 않았다. 회사는 조사 과정에서 Opus 4.7로 Code Review를 문제의 풀 리퀘스트에 역테스트한 결과, 완전한 컨텍스트가 주어진 Opus 4.7은 버그를 찾아냈으나 Opus 4.6은 찾지 못했다고 밝혔다. 이 버그는 4월 10일 v2.1.101에서 수정됐다.
세 번째 이슈는 Opus 4.7용 시스템 프롬프트의 출력 길이 제한이다. Opus 4.7은 출시 당시 공지한 대로 다소 장황하다는 행동 특성이 있어 어려운 문제에서는 더 똑똑하지만 출력 토큰이 많다. 앤스로픽은 장황함을 줄이기 위해 모델 학습·프롬프트·UX 개선 등 여러 도구를 동원했고, 이 중 시스템 프롬프트에 "Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail"를 추가한 것이 Claude Code 지능에 비대칭적인 영향을 미쳤다.
이 변경은 4월 16일 Opus 4.7과 함께 출시됐고, 이후 더 넓은 평가 세트로 어블레이션을 진행한 결과 한 평가에서 Opus 4.6과 4.7 모두 3% 하락이 관찰됐다. 회사는 4월 20일 릴리스에서 해당 프롬프트를 즉시 되돌렸다.
앤스로픽은 "각 변경이 서로 다른 트래픽 슬라이스에 다른 일정으로 영향을 줬기 때문에 종합적으로는 광범위하고 일관성 없는 품질 저하처럼 보였다"고 설명했다. 또한 3월 초부터 보고를 조사했지만 정상적인 사용자 피드백 변동과 구별하기 어려웠고 내부 사용·평가에서 처음에는 재현되지 않았다고 덧붙였다. 향후 유사 사건 방지 조치로 코드 리뷰의 컨텍스트 확장을 위한 추가 리포지토리 지원을 도입 중이라고 밝혔다.
관련 기사
'curl/curl' 깃허브 트렌딩… HTTP·MQTT·SCP·WSS 등 27개 프로토콜 지원 명령줄 데이터 전송 도구, libcurl 라이브러리 동봉 (4.1만 스타)
'home-assistant/core' 깃허브 트렌딩… 로컬 제어·프라이버시 우선 오픈소스 홈 오토메이션, 라즈베리 파이·모듈식 아키텍처로 8.6만 스타
'abhigyanpatwari/GitNexus' 깃허브 트렌딩… 코드베이스를 지식 그래프로 인덱싱하는 MCP, Claude Code·Cursor·Codex 등에 깊은 아키텍처 컨텍스트 제공