誰用克勞德代碼的? 答案可能不是程序員

2026/06/20 12:21
🌐zh-Hant

40萬次會議顯示AI降低編程门槛

誰用克勞德代碼的? 答案可能不是程序員
原名: 正在工作并呈現匯出回報
照片來自Anthropoic
照片來自Peggy

編輯器 : 討論AI編程工具如何改變人與碼之間的關係。

文章的中心點是,在智能編程中,人類主要决心"做什么",而克勞德主要負責"做什么". 而克勞德則是大部分的執行。 也就是說,AI正在接管寫作密碼、改變文件、執行命令、調试等成就。

更重要的是,使用克勞德碼的效果并不完全取决于使用者是否是程序員. 該報告顯示,在建立編碼的任務中,非技術工業使用者的成功率,如法律,金融,管理及科學,都接近於軟體工程師的成功率. 真正的影響是使用者是否理解他們將解決的問題。

這意味著AI編程降低了门槛,而不是判斷的门槛. 未來, AI並非自動取代領域中的知識。

原文如下:

主要调查结果

在既定研究的基础上,我們提出了研究交互式智能體的編程框架。 由於在2025年10月至2026年4月期间。

在典型的會議中,人類要對大多數的計劃決定負責,即如何做決定; 克勞德對大部分行政決定負責 即如何做決定 使用者在某一领域的專長越大,每次指令引起克勞德的工作量就越大。 在編碼任務中,主要職業群組的平均成功率——即使用者是否希望做什么以及是否有可查證的證據,如測試,提交碼——與軟體工程師差不多。

使用區域的專業程度越大, 然而,中间使用者和專家使用者之间的差距并不大。 在我們所觀察的七個月裡, 調试會議的比例已幾乎降低一半, 使用方式也轉而使用更多端到端的智能體用:部署與執行代碼, 數據分析。

這七個月來, 我們估計任務的價值。

引言

聰明的身體編程快速上升 自2025年底起, GitHub 的編碼情報活動比例翻了一番多, 一個沒有正式編程經驗的人能成功導致一個智慧的身體來完成複雜的技術任務嗎? 這些工具的迅速采用和能力提高會如何影響更广泛的知識工作? 我們還不能提供完整答案 但我們可以看到克勞德代碼早期的訊號。

根據對約235,000名使用者的隱私保護分析, 它遵循了我們之前對克勞德代碼自主性指示器的研究 以及克勞德代碼如何改變了安特羅皮克的内部工作 這篇文章將提出一個框架, 描述互動性 AI 編程助手的用法: 人們做什麼、誰做什么、是否成功。 我們擔心使用者使用命令行介面(CLI)、Claude.ai或Claude Code桌面應用程式使用Claude Code。 我們更瞭解這些工具對專家和知識工作者的勞動市場有何影響。

Claude Code上發生的事可能代表了知識工作的未來:智慧的身體逐渐嵌入非編碼工作之中. 我們發現克勞德在處理更複雜更有价值的任務 人決定建造什麼, 智慧體決定如何建造。

我們也看到實際的擴張工具被外地專家使用, 特別是, 然而,專家和中位使用者之间的差距并不大。 這些工具幾乎可以和深度專家一樣有效使用。

這些結果讓我們可以初步觀察工作市場可能的变化。 在我們的數據中,成功取决于一個人是否理解他或她想要解決的問題,而不是他或她是否接受了編程的訓練. 如果這些模型是在整个經濟系統內建立的,那就意味著智能體編程工具, 編碼情報不專業於別的地方 反之,工人帶來的智慧越多,智慧所能完成的高质量工作就越多。

分工

人們對克勞德代碼做什麼

為了了解人們如何使用克勞德代碼, 我們將每會議分成九個工作模式之一, 其中四種模式直接與密碼寫作或維護有關:建設新事物,修復受损事物,測試密碼,以及安排其他智慧或自動的水線。 另一類是操作軟體,包括部署、配置、運行的流線和監控系統。 了解現有系統如何運作, 後兩類別與編碼無關, 或是編碼只是最後產品的辅助部分: 通过演示文稿和其他文字文件分析資料與通訊。

約56%的會議包括密碼寫作(25%)、修理(26%)或測試和组织(5%)。 操作軟體占17%,計劃或探索占14%,分析或寫作占13%(见图1)。

图1 每一個互動會議都被归类為一個最能描述其目的的工作模式。

我們將允許模型讀取會議記錄, 並依此對每期作分類; 然後我們將使用隱私保護分析工具, 兩者有高度的一致性。 例如, 90%以上的分類區域被標記為建立或修改代碼的區段, 也顯示遠程數據的代碼變更 。 详见附件。

誰做決定

Claude Code有多厲害? 能力评估表明,上限已经很高,仍在上升。 例如,在METR時間範圍評估等基准測試中,前沿模型現在可以完成需要數小時人力努力的軟體工作,并克服此过程中的障礙。 但實際上,情況如何? 我們擔心的是 人類和克勞德都有多少指導。

我們從兩個角度來看 首先,我們擔心人們把決定交給克勞德的程度;第二,我們在觀察他們給克勞德分配了多少行動. 我們已依據會議的內容, 設立了一個保護隱私的決定分區。 我們要求分类法列出會議中所有有意义的決定, 規劃決定包括要做什麼、要做什麼、要做什麼、要做什麼; 依據創用CC授權使用。

平均而言,人類做出70%左右的計劃決定,但只有20%的執行決定(见图2)。 在實際上,智慧編程形成明确的分工:人類決定建造什麼,智慧體決定建造什麼。

我們不看內容, Claude Code 會議由Claude和使用者的圓圈互動构成:使用者發出提示,Claude執行一個動作;使用者再發下一個動作,所以. 在典型的會議中, 這樣的輪值约为四個。 在10月到4月的歷史資料中,每一個使用者發出的提示平均會觸發克勞德十項行動,有時會超过100項. Claude會讀取檔案、編輯密碼、執行命令。

Claude 兩次用戶檢查的功勞很大程度上取决于誰在做決定 當使用者保留了對執行流程的控制,也就是當使用者做出超过80%的執行決定時,克勞德每回合執行的動作就更少,约为8次. 當克勞德控制了計劃時 克勞德做了80%以上的計劃決定 做了最多的行動 約16次。

表2 依據創用CC授權使用 Claude則做出80%的執行決定。

专业人员

克勞德從新生到專家, 專業分類者關注於三個訊號:使用者给出的指示的精確性,使用者要求克勞德檢查什麼,使用者是否更常地修正克勞德,或者克勞德更常地修正. 需要指出的是,這裡的專業水平與職位或一般能力的概念完全不同,而關鍵是它與任務相關。 一位资深工程師第一次問起Rust, 若他能准确告訴克勞德。

以下表格顯示了我們如何界定分類中各層專業程度, 標準為「新手」的對話會提供一般指示。

表1 示例: 真實會話被重寫、 匿名和壓縮, 相關會話被我們的分類者標記 。 這些例子大多來自開放的智能體編程會議數據集 SWE-chat。

我們已經量化了專業水平 和克勞德每一個暗示 產生的產品和活动之間的關係 在典型的啟動會議中,每一個提示都啟動克勞德執行大约5個動作,输出約600個字;在專家會議中,動作鏈的长度是前者的兩倍以上,約12個動作,而輸出音量達到大约3200個字,是前者的五倍(见图3)。 新來者与專家之間的這個差距, 发生在每種工作以及每個任務的价值區域內。

這些指標是我們之前對克勞德代碼自主性的研究的补充 追蹤智慧身體的運作時間, 相形之下,我們的決定指示器 捕捉到在會議中做出实质性決定的人 而每個提示會觸發輸出和動作 量度每個人的指示 觸發克勞德自主活動的程度。

依據創用CC授權使用 專業程度越高, 盒子代表四角形, 以中程分隔 。 切換表示5%到95%。 白點是几何刻意的。 相邻職業層次的每個階段的差異也相當重要。 在控制工作模式、任務值、月數、職業和模型系列。

誰在使用克勞德代碼 他們拿它做什麼

使用者

我們從會議紀錄中推算出每個使用者的職業, 編目者只需要根据以下訊息來判斷:專案的背景,文件的名称和結構,使用者在會議初期引用的信息或產品,如法律文件,临床資料,財務報告,課程材料等,以及使用者使用的名詞. 分類者被明确要求不要將"寫作密碼"本身视为使用者編程專業的證據. 只有有清晰的訊號顯示軟體或數據工作是使用者的佔有,會議才被归类為與代碼相關的SOC類別,即"電腦與數學專業". 如果律師建構一個文稿, 以自動檢查某類合同中缺少某些條款, 如果沒有關於使用者專業的訊息, 會議不被分類 。

我們可以在70%的會議中推斷自己的職業 「電腦與數學專業」是這些機密會議中最大的團體, 其二是企業與金融運作、藝術設計與媒體、管理、生命科學、物理科學與社會科學。 在我們的樣本中, 發展最快的非軟體職業群組 是管理,銷售和法律。

工作

從2025年10月到2026年4月, 使用克勞德代碼完成的作品的构成有显著的改變。 最显著的變化是修复損失碼的會議比例由33%下降到19%(见图4)。 相反,更多的工作围绕密碼。 操作軟體的百分比從14%升至21%。 寫作與數據分析幾乎翻了一倍。

工作本身的价值也在上升。 我們估計每期的經濟價值, 10月至4月, 在各类工作方面都有增加。 建造、操作和修理的價值分别增加了大约43%、34%和32%。 所以我們主要用來比較不同任務之間的時光變化趋势, A/C.5/49/70,附件。

2025年10月至2026年4月Claude Code作品的构成和价值的变化。 圖表顯示七個月的視窗期間工作模式的比例。 修復被損失的密碼的會議比例從33%降至19%,而操作軟體、分析資料和文件寫作的比例也增加了。

成功要看用戶帶來什么

估計這項工作的價值, 另一面是觀察有多少會議成功, 使用者在會議中表现出的專業水平越高, 成功的可能性就越大。 升級大多集中在专业的下端,即起步使用者和中位使用者之间的差距大于中位使用者和專家使用者之间的差距。

在分析成功會議的特征之前, 我們無法觀察使用者的真實世界結果, 因此,我們依靠兩種互补的衡量方法,以會議記錄为基础。 第一個是「成功」, 後來, 兩位相伴的目錄者將評估判斷的證據力, 成功信號分類者尋求可核实的成功證據, 尤其包括與工作相匹配的Guit活動, 例如提交和拉動要求、測試套件通過以及使用者的明确批准。 從「無信號」到「弱信號」(1分鐘), 另一個平行的失敗信號分類器評估出錯誤的證據, 包括錯誤, 失敗的測試, 兩條條條件都是成功的必要条件: 以下分析集中于會議的成败程度,所以我們排除那些被成功結果分類者认定為"未定目標"的會議,這约占總樣本的7.7%。

专业人员返回

哪個會議最容易成功? 結果顯示。

可能有人擔心專業精神不是真正的推动者。 或許專家選擇了不同的任務, 我們對這項關注有部分反應, 比較同樣的工作類型、同樣估計值、同月、同樣的題材。

表2:成功和失敗的定義 以重寫及摘要後的分类法為標誌。

在所有的成績指示數中, 使用者在會議中所展示的專業程度越高, 我們最強的「經驗成功」指标是15%, 被评為中級及以上的會議有28%至33%,部分成功率91%至92%不等(见图5)。

每一個指示器, 大部分收益都是從升級到中間; 從中到專家, 斜坡慢。 图5。

表5 根據任務使用者的專業程度, 左圖包含所有會話 。 中心與右圖只限遇到問題的階段, 每個點都是調整的比例 我們只用同樣的工作模式、同一個任務值範圍、同一個月、同一個任務主題、同一個使用者類型, 相关回報的详情载于附录。 線線是樣本平均值的置信區,其中大多因其小而不可見. 這些數據排除了被成功結果者认定為「未定目標」的會議。

在被挑戰的會議中可以看到相似的梯度 。 當失敗信號被記錄在失敗的實驗證據中時,我們認為會議是"有問題的". 可能包括錯誤、測試失敗、多次試圖完成同樣的事情, 當以上所有變數都得到控制時,經驗成功的百分比從第一手會議的4%上升到了15%(见图5)。 如果使用更自由的成功指标, 我們至少會發現部分成功率在啟動使用者中為60%。

我們也追蹤了另一個反向關係, 該分析指出, 如果有問題的會議被判定為失敗且沒有寫入任何代碼行,我們稱它為廢棄. 在使用者似乎為新手的會議中, 19% 被遺棄; 在其他使用者群組中, 也就是說, 專業能力的一部分價值 似乎是能把智慧引向正確的方向。

職業可能不如專業經驗重要

軟體專業使用者的實驗成功率约为30%,其他工作使用者的實驗成功率约为26%。 在至少增加或修改了一行代碼的一代會議中,數字分别为34%和29%(见图6)。 如果使用更自由的成功定義, 在生成階段,這两类使用者至少取得了89%和88%的部分成功率。 5个百分点的差別并不大, 我們的數據集中最大的十個職業群組 都在七个百分点內 管理型工作的成功率最高,略高于軟體工程型工作。 經驗上的成功率越高, 可能反映出管理技能有能力轉移到掌握智慧的任務上。 但這部分可能來自於我們的測量: 校验在一定程度上依赖于會議使用者的明确確認。

依據推測, 圖表以使用者推算方式, 在至少增加或修改一行碼的會議中, 圖示為十大職業群組。 每個群組和軟體/數學使用者(即SOC分類中電腦和數學的專業使用者)的成功率差距在7个百分点以內。 根据不同的帳號, 錯誤行代表95%的置信间隔 。

展望

智慧的身體編程正在擴大一些知識與技巧, 相當於與軟體相關的職業, 似乎編碼智慧使編程背景對成功的編程不再重要 。

同時, 專家會議被評為比新會議成功的兩倍以上。 當會議有問題時, 新來者放棄的數量也比其他使用者高幾倍。 現場專家可以指導克勞德多做點事。 因此,領導克勞德成功的能力 更多来自于掌握一個區域的能力 而不是寫作密碼的能力 現在任何在任何领域都這麼精通的人都可以完成以前不可能完成的技術工作。 那些缺乏專業理解的人,也就是使用同樣的工具,將少得多的得益. 此外,收益主要来自能力而不是卓越。 根據此, 深度專業化只能提供一點附加优势。

結果還是初步的 我們無法測量真實世界的結果, 例如在會議中寫下的程式碼是否後來被使用或廢棄, 此外,本报告中不包括的非交互式使用占全部活动的很大比例。 制定衡量使用的框架是今后工作的优先事项之一。 而且,所有會議都依赖于對會議記錄的模型讀取。 在附录中,我們顯示分類器符合獨立遥測數據的预定方向,也符合大部分會議中強烈的參考模型判断. 然而, 在大規模的情況下, 確認分類仍然很困難; Claude Code會議本身更困難, 因為可能太長、太複雜。

也將持續更新本报告中的照片。 希望這些指示數能幫助我們追蹤正在發生的重大變化。 例如, 如果未來專業水平的回報開始下降, 這將表明模型開始提供使用者現在帶來的批判判性判斷, 如果軟體專業之外使用者成功編碼會話的比例持續上升, 這可能意味著軟體製作正在成為不同领域的普通工作的一部分, 這些變化會改變誰能從智能身體編程中受益。

[ 笑 ]原始链接]

QQlink

Không có cửa hậu mã hóa, không thỏa hiệp. Một nền tảng xã hội và tài chính phi tập trung dựa trên công nghệ blockchain, trả lại quyền riêng tư và tự do cho người dùng.

© 2024 Đội ngũ R&D QQlink. Đã đăng ký Bản quyền.