목록으로
연구2026년 6월 17일 AM 08:33

앤스로픽, 클로드 코드 40만 세션 분석 '성공은 도메인 전문성이 가른다'

앤스로픽이 2025년 10월부터 2026년 4월까지 약 23만 5천 명이 진행한 클로드 코드(Claude Code) 세션 약 40만 건을 프라이버시를 보호한 방식으로 분석한 보고서를 공개했다. 어떤 작업이 이뤄지는지, 사람과 AI가 어떻게 협업하는지, 성공률은 얼마인지를 살폈다.

분석에 따르면 한 세션에서 사람은 '무엇을 할지'를 정하는 계획 결정의 약 70%를 내리고, '어떻게 할지'를 정하는 실행 결정은 약 20%만 맡았다. 사람이 무엇을 만들지 정하고 에이전트가 그것을 어떻게 만들지 정하는 분업이 뚜렷하게 나타났다.

가장 두드러진 결과는 작업 성공을 좌우하는 것이 코딩 숙련도가 아니라 도메인 전문성이라는 점이다. 사람이 가진 도메인 전문성이 클수록 한 번의 지시로 클로드가 더 많은 일을 처리했고, 세션이 성공으로 끝나는 빈도도 높았다. 다만 중급 사용자와 전문가 사이의 격차는 크지 않았다.

코딩 작업에서는 거의 모든 주요 직군이 소프트웨어 엔지니어와 평균적으로 거의 같은 비율로 성공했다. 여기서 성공은 통과한 테스트나 커밋된 결과물처럼 검증 가능한 증거와 함께 사용자가 의도한 바를 이뤄낸 경우를 뜻한다.

7개월 동안 디버깅에 쓰인 세션 비중은 거의 절반으로 줄었고, 사용 양상은 코드 배포·실행, 데이터 분석, 코드가 아닌 문서 작성 등 더 포괄적인 에이전트 활용 쪽으로 옮겨갔다.

같은 기간 프리랜서 구인 공고와 비교해 추정한 일반적인 작업의 가치는 거의 모든 종류의 일에서 올랐으며, 평균 약 25% 상승했다.

앤스로픽은 각 세션을 9가지 작업 유형 중 하나로 분류했다. 코드를 직접 작성하거나 고치고 테스트하는 작업이 약 56%(작성 25%, 수정 26%, 테스트·오케스트레이션 5%)를 차지했고, 소프트웨어 운영이 17%, 계획·탐색이 14%, 분석·문서 작성이 13%였다.

세션은 평균 약 4번의 주고받음으로 이뤄졌고, 사용자가 보내는 프롬프트 하나는 평균 약 10개, 때로는 100개가 넘는 클로드의 연쇄 행동을 촉발했다. 클로드는 한 차례에 파일을 읽고 코드를 고치고 명령을 실행하며 평균 2,400단어를 출력했다.

사람이 실행 결정의 80% 이상을 쥐고 있을 때 클로드는 한 차례에 약 8개로 더 적은 행동을 했다. 클로드가 얼마나 많은 일을 알아서 하는지는 결국 누가 결정을 내리는지에 따라 달라졌다.

앤스로픽은 클로드 코드에서 나타난 이런 양상이 에이전트가 비코딩 업무에 스며들 미래 지식노동의 예고편일 수 있다고 봤다. 코딩 에이전트가 구현 위주의 일을 일부 흡수하더라도, 문제를 깊이 이해하는 사람일수록 더 많은 가치를 끌어낸다는 것이다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사