누가 Claude 코드를 사용? 답변은 프로그래머가 될 수 없습니다
4 백 천 세션은 AI가 프로그래밍 임계를 낮추고 필드 판단의 가치를 확대했다는 것을 보여줍니다

Original title: 기관 작업 및 현재 수출에 반환
Anthropoic의 사진
사진 Peggy
편집자: 이 보고서는 AI 프로그래밍 도구가 사람들의 관계를 변경하는 방법을 논의하는 약 400,000 Claude Code 세션을 기반으로합니다。
기사의 중심점은 지능형 프로그래밍에서 인간은 "do what,"에 주로 "do what"으로 결정됩니다. 사용자는 Claude가 대부분의 구현을 취하면서 대부분의 계획 결정을 내립니다. 즉, AI는 문서, 실행 명령, 디버깅, 등,하지만 타겟팅 및 outcome 판단은 여전히 사람들에게 의존합니다。
더 중요하게, Claude Code를 사용하는 효과는 사용자가 프로그래머인지에만 의존하지 않습니다. 보고서는 코드 생성의 작업에서, 비 기술적인 직업 사용자의 성공률, 법적, 금융, 관리자 및 과학과 같은, 소프트웨어 엔지니어의 가까이에 보여줍니다. 실제로 outcome에 영향을 미치는 것은 사용자가 해결하는 방법에 대해 이해 한 문제입니다。
AI 프로그래밍은 임계값을 낮추는 것을 의미한다. 미래에, 비즈니스를 알고, 장면을 알고, 미립자 필요와 판단 OUTCOMES는 단순히 코드를 작성하는 사람들보다 AI를 사용할 수있을 수 있습니다. AI는 필드에 대한 지식을 자동으로 대체하지 않지만 값이 향상됩니다。
다음은 원본 텍스트입니다:
키 찾기
연구의 기초에, 우리는 상호 작용하는 지적인 몸의 프로그램 공부를 위한 기구를 제안했습니다. 프레임 워크는 10 월 2025 일부터 4 월 2026 일까지 기간 동안 약 400,000 Claude Code 세션의 개인 정보 보호 분석에 근거하여 인간이 AI와 공동하는 방법과 임무의 성공률을 분석합니다。
일반적인 세션에서 인간은 대부분의 계획 결정에 대해 책임집니다. 즉, 무엇을 할 것인지 결정합니다. Claude는 대부분의 임원 결정에 책임이 있습니다. 즉, 그것을 수행하는 방법에 대한 결정. 주어진 분야에 있는 사용자의 s 전문 지식이 더 중대한, 더 중대한 workload 각 지시 방아쇠 Claude. 코딩 할당에서, 주요 직업 그룹의 평균 성공률 - i.e., 또는 사용자가해야 할지 여부 및 테스트와 같은 검증 가능한 증거와 함께, 제출 코드 - 소프트웨어 엔지니어와 거의 동일합니다。
사용자 영역에서 더 큰 전문성은 대화가 성공적으로 끝날 가능성이 더 높습니다. 그러나 중간과 전문가 사용자 사이의 간격은 중요하지 않습니다. 7 개월 동안 우리는 관찰했다, 디버깅 세션의 비율은 거의 절반, 그리고 사용의 모드는 더 종료 스마트 바디 사용으로 이동: 배포 및 실행 코드, 데이터 분석, 그리고 비 코드 문서를 작성。
이 7 개월 동안, 전형적인 임무의 값은 거의 모든 작업 유형에 장미. 우리는 무료 작업에 게시 된 정보와 비교하여 임무의 가치를 추정, 약 25 퍼센트의 평균 증가를 보여주는。
제품정보
스마트 바디 프로그래밍은 빠르게 상승합니다. 2025년 말부터 GitHub의 코딩 인텔리전스 활동의 비율은 이중화되고 Claude Code 사용자는 일주일에 평균 20시간 동안 도구를 사용합니다. 공식적인 프로그래밍 경험을 가진 사람이 복잡한 기술 작업을 수행하기 위해 지능형 몸을 성공적으로 직접 할 수 있습니까? 이 도구의 급속한 채택 및 용량 향상은 더 넓은 지식 작업에 영향을 미칠까요? 우리는 아직 완전한 대답을 줄 수 없지만 Claude Code의 초기 신호를 볼 수 있습니다。
이 보고서는 Claude Code가 실제로 사용되는 방법에 대한 증거를 제공합니다. 약 235,000 명의 사용자의 개인 정보 보호 분석 및 10 월 2025 및 4 월 2026 사이의 약 400,000 대화 형 세션. Claude Code의 자율 지표에 대한 우리의 이전 연구와 Claude Code가 Anthropic의 내부 작업을 어떻게 변경했는지. 이 종이는 대화 형 AI 프로그래밍 조수의 사용을 설명하기위한 프레임 워크를 제시합니다. 사람들이 무엇을 할, 누구와 그들이 성공 여부. 명령줄 인터페이스(CLI), Claude.ai 또는 Claude Code Desktop 애플리케이션을 사용하여 Claude Code의 사용에 대해 우려하고 있습니다. 스마트 바디 프로그래밍 변경을 모델 기능 성장으로 추적함으로써, 우리는 프로그램 전문가 및 지식 노동자의 노동 시장에 이러한 도구의 영향을 더 잘 이해할 수 있습니다。
Claude Code는 지식의 미래에 대한 표시가 될 수 있습니다. 지능적인 신체는 비 코딩 작업에 점차 내장되어 있습니다. Claude가 더 복잡하고 가치있는 작업을 다루고 있음을 발견했습니다. 같은 시간에, 여전히 지능형 신체의 프로그래밍에 노동의 명확한 부분이 있습니다 : 인간은 구축하는 것을 결정하고 지능체는 구축 방법을 결정합니다。
우리는 또한 실제 scaling-up 도구가 프로그래밍 능력보다 오히려 필드 전문성에 의해 사용됩니다 증거를 보았다. 특히, 분야에서 전문가가 성공하고 실수와 실수로 회복 할 가능성이 있습니다. 그러나 전문가들과 중간 수준의 사용자 사이의 간격은 중요하지 않습니다. 이것은 주어진 지역에 충분한 숙련도가 있기 때문에, 그런 공구는 깊이 전문가로 효과적으로 사용될 수 있습니다。
이 발견은 노동 시장에서 가능한 변화의 예비 관찰을 할 수 있습니다. 우리의 데이터에서, 성공은 사람이 그 문제를 이해하고 있는지 여부에 따라 달라집니다. 또는 그녀는 프로그래밍에서 훈련 된지 여부. 이 모델은 경제 시스템 전반에 걸쳐 설치되면 스마트 바디 프로그래밍 도구가 즉, 실현 지향적 인 작업의 일부를 흡수하는 반면, 그들은 진정으로 자신의 작업에 대한 문제를 이해하는 사람들을 보상합니다. 인코딩 인텔리전스는 대안 분야를 전문으로 하지 않습니다. 금기에서 더 많은 노동자는 지적인에 가져옵니다, 더 높은 질 일은 지적인 실행할 수 있습니다。
연구분야
사람들이 Claude 코드로 무엇을합니까
사람들이 Claude Code를 사용하는 방법을 이해하기 위해 각 세션을 9 개의 작업 모델 중 하나에 그룹하고, 세션의 목표를 가장 잘 설명하는 단일 활동. 이 모형의 4개는 부호 쓰기 또는 정비에 직접 넓힙니다: 새로운 것을 건축하고, 손상된 것을, 시험 부호를 고치고, 다른 지적인 자동화한 물 선을 배열하. 다른 범주는 배포, 구성, 실행 흐름 라인 및 모니터링 시스템을 포함하여 운영 소프트웨어입니다. 변경하기 전에 기존 시스템의 작동 및 계획 변경을 이해하는 데 필요한 두 가지 유형이 있습니다. 마지막 두 범주는 코드와 관련이 없습니다, 또는 코드는 최종 제품의 보조 부분입니다 : 프리젠 테이션 및 기타 텍스트 기반 문서를 통해 데이터 및 통신 분석。
세션의 약 56 퍼센트는 코드 작성 (25 퍼센트), 수리 (26 퍼센트) 또는 테스트 및 조직 (5 퍼센트)로 구성됩니다. 17 퍼센트, 계획 또는 탐험을위한 운영 소프트웨어 계정 14 퍼센트 및 분석 또는 13 퍼센트에 대한 쓰기 (그림 1)。

그림 1: Nine 작업 모델. 각 대화 형 세션은 최고의 목표에 대해 설명하는 단일 작업 모델로 분류됩니다。
우리는 세션 레코드를 읽고 각 세션을 분류 할 수 있도록 모델을 허용한다. 그런 다음 코드 라인이 추가되었거나 삭제되었는지 여부를 포함하여 각 세션에 대해 자동으로 기록 된 원격 측정 데이터가있는 분류 결과를 크로스 검사하기 위해 개인 정보 보호 분석 도구를 사용합니다. 두 소스 사이의 일관성이 높은 정도가 있습니다. 예를 들어, 우리의 세법이 생성되거나 코드를 수정하는 세션의 90 % 이상은 원격 측정 데이터의 코드 변경을 보여줍니다. 세부사항을 위한 appendix를 보십시오。
누가 결정
얼마나 강력한 Claude 코드? 용량 평가는 천장이 이미 높았고 여전히 상승했습니다. 예를 들어, METR 시간 수평선 평가와 같은 벤치 마크 테스트에서 front-line 모델은 이제 인간의 노력의 몇 시간을 필요로하고 프로세스의 장애물을 극복 할 수있는 소프트웨어 작업을 수행 할 수 있습니다. 그러나 실로, 어떤 상황입니까? 여기에, 우리는 얼마나 많은 지도 인간과 Claude에 대해 우려하고있다。
우리는 2개의 각에서 이것을 봅니다. 첫째, 우리는 사람들이 Claude에 대한 결정을 내릴 수있는 정도에 대해 우려하고 있습니다. 둘째, 우리는 Claude에 할당 된 많은 행동이 얼마나 많은 작업을 찾고 있습니다. 세션에서 의사결정의 사업부를 이해하기 위해 세션의 내용에 따라 개인 정보 보호에 대한 의사결정을 수립했습니다. 우리는 세션에서 모든 의미있는 결정을 나열하고 계획 및 구현 결정으로 나눕니다. 계획 결정은 수행 될 것입니다, 무엇을 수행해야, 무엇을 수행해야; 구현 결정은 문서가 수정 될 것 포함, 어떤 코드가 작성 될 것, 어떤 언어, 그리고 어떤 명령이 운영되는. 따라서, 카탈로그는 각 결정에 Claude 또는 사용자를 속성하고 각 세션에 대한 두 가지 숫자를 생성합니다. 사용자가 찍은 계획 결정의 비율과 사용자가 찍은 구현 결정의 비율。
평균적으로 인간은 계획 결정의 약 70 %를 만들고 있지만 구현 결정의 20 퍼센트 (그림 2)를 참조하십시오. 실제 사용에서 지능형 프로그래밍은 노동의 명확한 부분을 형성합니다. 인간은 구축하는 것을 결정하고 지능적인 신체는 구축하는 방법을 결정합니다。
세션에서 행동의 위임 정도를 이해하기 위해, 우리는 내용이 보이지 않지만 세션의 구조에. Claude Code session은 Claude와 사용자 사이의 라운드 및 라운드 상호 작용으로 구성됩니다. 사용자는 힌트를 보내며, Claude는 동작을 실행합니다. 사용자는 다음을 보내드립니다. 일반적인 세션에서 이러한 교체는 약 4입니다. 10 월에서 4 월까지 우리의 역사적인 데이터에서, 각 힌트는 사용자의 트리거에 의해 전송 10 작업에 대해 평균, 때로는 100을 초과. 각 라운드에서, Claude는 파일을 읽고, 코드를 편집하고 명령을 실행하고 2400 단어의 평균을 출력합니다。
Claude, 두 명의 사용자 검사 사이에 얼마나 많은 작업이 결정하는 사람들에게 달려 있습니다. 사용자가 실행 프로세스에 대한 제어를 유지하면, 즉, 사용자가 80 % 이상의 시행 결정을 할 때, Claude는 라운드 당 더 적은 작업을 수행, 약 8. Claude가 계획의 통제를 받았을 때, Claude는 계획 결정의 80 % 이상을 만들었습니다. 그것은 16에 대해 가장 높은 행동을 수행했습니다。

Figure 2: Claude ' s는 계획하고 의사 결정에 공유합니다. 그림은 다른 세션에서, 계획 결정 (what to do) 및 구현 결정 (그것을 수행하는 방법)은 사용자의 비율의 배포보다 오히려 Claude에 기여할 수 있습니다. 전형적인 세션에서 사용자는 약 70 %의 계획 결정을 내리고 Claude는 약 80 %의 구현 결정을 내립니다。
직업적인 수준
각 세션 기록에 따르면, Claude는 Freshman에서 전문가에게 5 레벨 스케일에서 작업에 대한 사용자의 명백한 전문성을 평가합니다. 전문 레벨 클래스터는 세 가지 신호에 중점을 둡니다. 사용자에 의해 주어진 지침의 정확도, Claude가 무엇을 확인하는 사용자의 요구 사항, 사용자가 Claude를 더 자주 수정하거나 더 자주 Claude. 그것은 여기 전문성의 수준이 게시물 또는 일반 능력의 개념에서 완전히 다릅니다, 그리고 키는 임무 별이다. 처음으로 수석 엔지니어는 Rust에 대한 질문을했다, 여전히 Rust 임무에 초보자 일 수있다. Python을 사용하지 않은 회계자는 이 작업에서 전문가입니다. 그는 정확하게 Claude에게 파이썬 스크립트에 적용되어야하며, 한 달 말에 잘못 처리 된 경계를 캡처 할 수 있습니다。
아래 표는 우리가 분류의 모든 수준에서 전문화의 수준을 정의하는 방법을 보여 주며 열린 코딩 스마트 바디 세션 데이터 세트 SWE-chat에서 예 요청을 제공합니다. Dialogues는 “새로운 손”으로 분류되어 특정 영역의 지식을 반영하지 않는 일반적인 지침을 제공합니다. “experts”로 분류 된 대화는 코드 라이브러리 및 기술 환경에 대한 심층적인 이해를 전달합니다。

도표 1: 직업적인 수준 분류하는 사람. 예: Real sessions are rewrited, 익명으로 압축, 관련 세션은 우리의 분류자에 의해 표시됩니다. 이 예제의 대부분은 오픈 스마트 바디 프로그래밍 세션 데이터 세트 SWE-chat에서 온다。
우리는 Claude의 모든 힌트에 의해 생성 된 전문성과 출력 및 활동 사이의 관계를 정량화했습니다. 일반적인 시작 세션에서는 각 힌트 트리거 클로드가 약 5개의 행동과 출력을 600 단어에 대해 수행하도록 합니다. 전문 세션에서 작업 체인 길이는 전 두 번 이상, 약 12 개의 행동, 출력 볼륨은 약 3200 단어, 5 번 전 (그림 3)를 참조하십시오. 새로운 동료와 전문가들 사이의 이 간격은 각 유형의 작업과 각 임무 's 값 영역에서 발생합니다。
이 지표는 Claude Code의 자율성을 보완합니다. 이전 연구는 지능형 몸의 작동의 길이를 추적하고 사용자가 자신의 작업을 자동으로 승인하는 주파수. 대조적으로, 우리의 의사 결정 지표는 세션 전반에 걸쳐 하위 예측 결정을 내리고있는 캡처, 각 힌트 트리거 출력 및 행동을 측정하는 동안, 각 인간의 지시 트리거 클로드의 자율적인 활동을 측정하는。

그림 3 : 더 많은 전문 사용자를 위해 Claude는 힌트 당 더 많은 작업을 수행했습니다. 더 높은 전문성의 수준, 더 많은 행동 (왼쪽 열) 및 텍스트 출력 (오른 열)은 힌트 당 클로드에 의해 생성됩니다. 상자는 quadrant를 대표하고 중간 범위에서 분할됩니다. 토글은 5 ~ 95 %를 나타냅니다. 흰색 도트는 기하학적 의미입니다. 두 개의 상향 추세는 statistically 중요합니다 (p & lt; 0.001) 및 neighbouring 전문가 수준의 각 단계의 차이는 statistically 중요합니다. 이 트렌드는 작업 패턴, 미션 값, 달, 직업 및 모델 시리즈를 제어 한 후 상당한 유지되며 사용자 그룹 표준에 따라 다음과 같은 오류가 있습니다. 작업의 수는 9 퍼센트로 증가했으며 각 단계에서 13 퍼센트로 증가했습니다。
Claude Code를 사용하는 사람은 누구입니까
사용자 이름
이 작업을 수행하는 것을 이해하기 위해 세션 로그에서 각 사용자의 직업을 추가하고 미국 노동 통계 표준 분류 (SOC)의 23 주요 범주 중 하나에지도합니다. 카탈로그는 다음과 같은 신호의 기초에만 심사해야합니다. 프로젝트의 컨텍스트, 문서의 이름과 구조, 정보 또는 제품은 법률 문서, 임상 데이터, 재무 보고서, 과정 자료 등과 같은 세션의 시작 부분에 의해 인용. 그리고 사용자가 사용하는 용어. SORTER는 사용자의 프로그래밍 직업의 증거로 "코드를 쓰기"를 고려하지 않아 명시적으로 요구됩니다. 소프트웨어 또는 데이터 작업이 사용자의 직업이 세션이 코드 관련 SOC 범주, 즉, "컴퓨터 및 수학 직업"으로 분류되는 명확한 신호가 있는 경우에만. 변호사는 계약의 그룹에 특정 용어의 부재의 자동 검사에 대한 스크립트를 구성, 심지어 세션이 주로 소프트웨어에 대해, 그것은 법적 직업에 배치됩니다. 사용자 직업에 대한 신호가 없다면 세션은 분류되지 않습니다。
우리는 세션의 약 70 %에서 경력을 추가 할 수 있습니다. 그것은 "컴퓨터 및 수학 직업"이 가장 큰 그룹이 가장 소프트웨어 관련 작업을 다루기 때문에 "컴퓨터 및 수학 직업"이 가장 큰 그룹을 놀라지 않습니다. 두 번째는 비즈니스 및 금융 운영, 예술 디자인 및 미디어, 관리 및 생명 과학, 물리적 과학 및 사회 과학입니다. 우리의 샘플에서 가장 빠르게 성장하는 비 소프트웨어 직업 그룹은 관리, 마케팅 및 법률입니다。
(주)
10 월 2025 일부터 4 월 2026 일까지 Claude Code를 사용하여 작업의 구성에 표시 된 변경이있었습니다. 가장 주목할만한 변화는 센트에서 19 퍼센트 (그림 4)에 33 퍼센트에서 손상 코드를 복구하는 데 사용되는 세션의 비율에 쇠퇴했다. 대신, 코드 주위에 더 많은 작업. 운영 소프트웨어의 비율은 14%에서 21%로 상승합니다. 약 10 %에서 약 20 %까지 거의 두 배로 작성 및 데이터 분석。
작업 자체의 값은 상승에 있습니다. 우리는 모든 세션의 경제적 가치에 대해 Free-occupation 시장에서 작업의 동일한 유형의 비용을 평가하고 실제 열린 작업 데이터 세트를 사용하여 측정합니다. 이 지표에 따르면, 평균 세션의 추정 값은 10 월과 4 월 사이에 27 % 증가했습니다. 이 증가는 다양한 종류의 작업에서 발생했습니다. 빌드, 운영 및 수리 범주의 가치는 각각 약 43 퍼센트, 34 퍼센트 및 32 퍼센트로 증가했습니다. 이 가격 견적은 거친, 그래서 우리는 직접 읽기 쉬운 달러 값과 같은 다른 임무 사이에 추세를 비교하기 위해 주로 사용합니다. 임무 값 견적자가 구성 된 방법에 대한 세부 사항은 부록에서 제공됩니다。

그림 4 : Claude Code의 구성 및 값 변경 '10 월 2025에서 4 월 2026에서 작업. 차트는 7 개월 동안 세션에서 작업 패턴의 비율을 보여줍니다. 손상된 코드를 복구하는 세션의 비율은 33 퍼센트에서 19 퍼센트로 감소, 운영 소프트웨어의 공유, 분석 데이터 및 문서 쓰기 증가。
성공은 사용자가 가져 오는 일에 달려 있습니다
작업의 가치를 평가하는 것은 Claude Code가 사람들이 일을 할 수 있도록하는 방법을 이해하는 한 가지 방법입니다. 또 다른 관점은 많은 세션이 성공하고 세션의 특성이 성공과 관련된 방법을 관찰하는 것입니다. 성공의 모든 지표 중, 우리는 명확한 패턴을 볼 수 있습니다 : 세션에서 사용자에 의해 보인 전문성의 수준, 성공의 더 큰 장점. 대부분의 업그레이드는 직업의 낮은 끝에 집중됩니다, 즉, 시작과 중간 수준의 사용자 사이의 간격은 중간 수준과 전문가 사용자 사이의 간격보다 더 커집니다。
성공적인 세션의 특성을 분석하기 전에, 우리는 정확하게 어떻게 성공이 측정되는지 결정해야합니다. 우리는 사용자의 실제 세계 결과를 관찰 할 수 없으며 Claude를 통해 원하는 것을 직접 요청할 수 있습니다. 따라서 세션 레코드를 기준으로 두 가지 보완 측정 방법에 의존합니다. 첫 번째는 "교육"이며, 사용자가 성공, 부분 성공, 실패 및 명확성의 부족을 포함하여 자신의 목표 달성 여부에 의해 판단됩니다. 따라서, 두 개의 동반 카탈로그가 "experimental success"을 결정하기 위해 판사 강도를 평가합니다. 성공적인 Signal classifier는 제출 및 풀 요청, 테스트 패키지 통과 및 명시된 사용자 승인과 같은 작업과 일치하는 특정, 특정, guit 활동과 같은 성공을 입증 할 수있는 증거를 추구합니다. "전신 신호"에 "전신 신호"(1 분)에서 "전신 하드 신호"(5 분)의 스케일에 따라 세션을 점수합니다. 또 다른 병렬 장애 신호 클래스터는 오류를 포함하여 오류의 증거를 평가, 실패 테스트, 같은 일에 반복 된 시도, 출력하는 사용자의 물체. 두 조건 모두 입증 된 성공에 필요한: 세션은 성공적으로 판단되고 성공의 적어도 하나의 하드 검증 기호가 있습니다. 다음 분석은 세션에서 성공 또는 실패의 정도에 초점을 맞추고, 그래서 우리는 "undefined 객관적 목표"로 성공적인 결과를 확인한 사람들을 제외하고, 총 샘플의 약 7.7 퍼센트。
회사 소개
그래서, 어떤 세션은 가장 쉽게 성공? 이 결과는 세션의 상속 전문가 등급이 성공에 중요한 영향을 미칩니다。
전문가가 실제 드라이버가 아니라는 것에 대한 우려가있을 수 있습니다. 아마도 전문가들은 다른 위임을 선택하거나 다른 지역에서 차이가있었습니다. 이 섹션에서는 동일한 유형의 작업을 비교하여이 우려에 부합합니다. 같은 예상 값, 동일한 달, 동일한 주제 문제 및 같은 넓은 직업 그룹에서 대화 및 사용자의 다른 전문 수준이 결과에 영향을 줄 수 있는지 확인하십시오。

표 2: 성공의 정의 및 분류에서 파생된 실패. 예를 들어, 오픈 스마트 바디 프로그래밍 대화 형 데이터 세트 SWE-chat에서 실제 세션에서, rewritten 및 요약 후 우리의 과도한에 의해 표시됩니다。
모든 성공 지표 중, 더 높은 전문성의 수준은 세션에서 사용자에 의해 입증, 더 가능성이 세션은 성공할 것이다. 새로 평가된 세션의 성공률은 15 퍼센트에 대한 우리의 가장 강한 지표의 "experienced success", 그리고 77 퍼센트에 대한 적어도 부분의. 회의는 중급으로 평가되고 위는 28에서 33 퍼센트에서 경험했습니다, 부분적인 성공은 91에서 92 퍼센트 (그림 5)에 배열합니다。
각 지표의 경우, 이익의 대다수는 시작에서 중간에 격상시키는 것입니다; 전문가에게 중간에서, 사면은 느립니다. 그림 5. 뒤에 회귀 분석의 세부 사항에 대한 부록 참조。

그림 5 : 전문 참여의 결과. 차트는 미션의 사용자의 전문 수준에 따라 Freshman에서 전문가에게 5 등급의 세션의 결과를 보여줍니다. 왼쪽 차트는 모든 세션이 포함되어 있습니다. 중앙 및 오른쪽 차트는 문제가 발생되는 세션에 제한됩니다. 즉, 실패 신호가 3보다 크며 이러한 세션이 결국 성공과 실패의 다른 비율에 도달하는 방법을 보여줍니다. 각 점은 조정된 비율입니다. 우리는 동일한 작업 모델, 동일한 임무 값 범위, 같은 달, 같은 임무 테마 및 같은 사용자 유형, 즉, 소프트웨어 관련 직업에 속하는지 여부, 같은 세션을 비교하여 전문 수준의 차이를 추정합니다. 관련 반환의 세부 사항은 부록에서 제공됩니다. 배선은 표본 평균의 신뢰 지역, 그들의 작은 때문에 보이지 않는 대부분의입니다. 이 그림은 "undefined 목표"로 성공적인 결과를 확인한 세션을 제외합니다。
비슷한 기온은 도전 세션에서 관찰 할 수 있습니다. 실패 신호가 실패의 적 증거에 기록되면 세션이 "problemed"라고 생각합니다. 이 오류, 테스트 실패, 같은 일을 완료하는 여러 시도, 또는 사용자가 좌절과 dissatisfaction의 표현을 포함 할 수 있습니다. 위의 모든 변수가 제어되었을 때, 경험있는 성공의 비율은 첫 번째 세션의 4 퍼센트에서 15 퍼센트의 전문가 세션 (그림 5)를 참조하십시오. 더 라이브러리 성공 지표가 사용되는 경우, 우리는 시작 사용자 중 최소 60 퍼센트의 부분적 성공률과 80에서 81 퍼센트의 중간 수준에서 전문가 사용자에게 제공합니다。
우리는 또한 다른 역 관계, 전문성과 실패의 각종 지시자 사이 관계를 추적했습니다. 이 분석에서 실패한 세션은 부분적으로 성공하지 않은 사람들입니다. 문제와 함께 세션이 실패로 판단되고 어떤 코드 라인에서 작성되지 않는 경우, 우리는 포기. 사용자가 rookie로 나타나는 세션 중 19%는 결국 포기되었습니다. 다른 사용자 그룹에서 비율은 5 %와 7% 사이였습니다. 다른 말에서, 사용자는 최소한의 경험을 가진 사용자는 그들의 목표를 달성하기 위해 투쟁 할 때 포기할 가능성이 더 있습니다. 전문 역량의 가치의 부분은 올바른 방향으로 직접 지능을 다시 할 수있는 능력이 나타납니다。
경력은 전문 자격보다 덜 중요 할 수 있습니다
모든 세션에서 소프트웨어 관련 직업 사용자의 empirical 성공률은 약 30 퍼센트이고 다른 직업 사용자의 경우 약 26 퍼센트. 세대 세션에서 코드의 최소 1 줄이 추가되었거나 수정 된 경우, 숫자는 각각 34 퍼센트와 29 퍼센트였다 (그림 6 참조). 성공의 더 자유 정의가 사용되는 경우, 소프트웨어 관련 직업과 다른 직업 사이의 간격은 더 좁힐 것입니다. 세대 세션에서 두 가지 범주는 각각 89 퍼센트와 88 퍼센트의 최소 부분적 성공률을 달성했습니다. 5 퍼센트 포인트의 차이는 중요하지 않으며 7 개월 동안 넓거나 좁히지 만 성공률이 두 그룹에서 증가했습니다. 세대 세션에서, 우리의 데이터 세트의 10 가장 큰 직업 그룹의 각각은 성공의 7 비율 점 안에 있습니다. 관리 유형 직업은 입증된 성공의 가장 높은 비율, 소프트웨어 공학 유형 직업 보다는 약간 더 높은 가지고 있습니다. 관리자를위한 더 높은 empirical 성공률은 관리 능력을 반영하여 명령 인텔리전스 작업을 마이그레이션 할 수 있습니다. 그러나 이것은 우리의 측정에서 부분적으로 일 수 있었습니다: 검증은 세션의 사용자에 의해 명시된 확인에 몇몇 범위에 의존하고, 매니저는 그들이 원하는 결과를 얻을 때 스스로 표현하기 위하여 더 익숙해질지도 모릅니다。

FIGURE 6: INFER 직업에 의한 인코딩 세션은 성공률과 EMPIRICAL 성공률을 결정합니다. 차트는 성공 결정과 경험을 포함하여 코드의 최소 한 줄이 추가되거나 수정되었던 세션에서 직업 분류의 사용자의 수익에 의해 성공률의 엄격한 정의를 보여줍니다. 그림은 가장 큰 직업 그룹을 보여줍니다. 각 그룹 및 소프트웨어 / 수학 사용자 사이의 성공률의 차이, 즉, SOC 분류의 컴퓨터 및 수학의 전문 사용자는 7 % 포인트 내에 있습니다. 오류 라인은 다른 계정에 따라 95 %의 신뢰 간격을 나타냅니다。
파일 형식
이 보고서의 결과는 신흥 사진 개요 : 지능형 바디 프로그래밍은 다른 사람을 교체하면서 지식과 기술을 확장하고 있습니다. 세대 세션의 주요 직업의 성공률은 소프트웨어 관련 직업과 크게 다릅니다. 코딩 인텔리전스가 프로그래밍 배경을 더 중요하게 만드는 것 같다。
동시에 성공적인 세션은 현장 전문성을 입증 할 가능성이 더 높습니다. 전문가 세션은 더 새로운 세션으로 두 번 이상 성공했습니다. 세션이 문제가 될 때, 포기하는 newcomers의 수는 다른 사용자보다 몇 배 더 높습니다. 협업 접근 방식 자체는 이 그림 클리어러를 만듭니다. 필드 전문가는 각 지시에 더 많은 것을 할 수 있습니다. 따라서, 성공에 Claude를 리드하는 능력은 코드를 작성하는 능력보다 지역을 마스터 할 수있는 능력에서 더 온다. 이전에 불가능한 기술 작업을 완료하기 위해 모든 분야에서 마스터리와 함께 누구나 가능합니다. 이 전문 이해를 부족한 사람들, 즉. 같은 도구를 사용, 얻을 훨씬 적은. 또한, derive의 장점은 주로 우수성보다 우수합니다. 특정 영역의 작동 이해로, 대부분의 이점은 이미 달성되었습니다; 이 기초에, 깊은 전문화는 단지 작은 추가 이점을 제공할 것입니다。
이 발견은 여전히 예비입니다. 우리의 연구의 대부분처럼, 우리는 세션에서 작성된 코드와 같은 실제 세계 결과를 측정 할 수 없거나, 경제적으로 귀중한 결과를 생산 여부. 또한, 이 보고서에서 제외되지 않는 비동기 사용은 전반적인 활동의 상당한 비율을 나타냅니다. 이러한 사용을 측정하기위한 프레임 워크의 개발은 미래의 작업을위한 우선 순위 중 하나입니다. 또한, 모든 카테고리의 세션은 세션 레코드의 모델 독서에 따라 달라집니다. 부록에서 우리는 분류자가 독립적 인 원격 측정 데이터의 의도 방향과 대부분의 세션에서 강한 참조 모델 판단과 일관성을 보여줍니다. 그러나 대규모 시나리오에서 분류를 확인하는 것은 어렵습니다. Claude Code sessions 자체는 실제 벤치 마크로 수동 라벨링을 사용할 수 있기 때문에 훨씬 어렵습니다。
모델, 사용자 및 그 사이의 노동 부서가 진화함에 따라 현재 보고서의 그림은 지속적으로 업데이트됩니다. 우리는이 지표가 우리에게 중요한 변화를 추적하는 데 도움이됩니다. 예를 들어, 미래의 전문 수준에서 반환이 쇠퇴하기 시작하면, 이 모델은 사용자가 가져 오는 중요한 판단을 제공하기 위해 시작되고 이러한 도구의 이점은 필드 전문가에서 더 넓은 관객에게 연장 될 것입니다. 소프트웨어 직업 밖에서 성공적인 코딩 세션의 비율이 계속 상승하는 경우에, 그것은 소프트웨어 생산이 단일 직업의 제품 보다는 오히려 각종 분야에서 정규적인 일의 부분이 되고 있다는 것을 의미할지도 모릅니다. 이 변경은 지능형 바디 프로그래밍에서 혜택을받을 수 있으며, 얼마나 많은 사람들이 혜택을 얻을 수 있으며, 노동 시장에서 가장 가치있는 용량에 영향을 미칠 수 있습니다。
[ 척 ]원본 링크]
