Ai biết cách sử dụng Claude Code tốt nhất? Câu trả lời có thể không phải là lập trình viên
400.000 phiên cho thấy AI đã hạ thấp ngưỡng lập trình và khuếch đại giá trị phán đoán miền.

Tiêu đề gốc: Mã hóa tác nhân và sự quay trở lại chuyên môn liên tục
Tác giả gốc: Anthropoic
Biên soạn bởi: Peggy
Lưu ý của người biên tập: Báo cáo này dựa trên khoảng 400.000 phiên Claude Code và thảo luận về cách các công cụ lập trình AI đang thay đổi mối quan hệ giữa con người và mã.
Kết quả cốt lõi của bài viết là: trong lập trình tác nhân thông minh, con người chủ yếu quyết định "phải làm gì" và Claude chịu trách nhiệm chính về "làm như thế nào". Người dùng đảm nhận hầu hết các quyết định lập kế hoạch và Claude đảm nhận phần lớn việc thực hiện. Nói cách khác, AI đang đảm nhận các liên kết triển khai như viết code, thay đổi file, chạy lệnh, gỡ lỗi, v.v. nhưng việc đặt mục tiêu và phán đoán kết quả vẫn dựa vào con người.
Quan trọng hơn, hiệu quả của việc sử dụng Claude Code không chỉ phụ thuộc vào việc người dùng có phải là lập trình viên hay không. Báo cáo cho thấy trong nhiệm vụ tạo mã, tỷ lệ thành công của người dùng trong các ngành nghề phi kỹ thuật như luật, tài chính, quản lý và nghiên cứu khoa học gần bằng với kỹ sư phần mềm. Điều thực sự ảnh hưởng đến kết quả là liệu người dùng có hiểu được vấn đề họ muốn giải quyết hay không.
Điều này có nghĩa là việc lập trình AI hạ thấp ngưỡng thực hiện chứ không phải ngưỡng phán đoán. Trong tương lai, những người hiểu rõ về kinh doanh, hiểu các tình huống và có thể đưa ra yêu cầu cũng như đánh giá kết quả một cách rõ ràng có thể sử dụng AI tốt hơn những người chỉ biết viết mã. AI sẽ không tự động thay thế kiến thức miền mà sẽ khuếch đại giá trị của kiến thức miền.
Sau đây là văn bản gốc:
Những phát hiện chính
Dựa trên nghiên cứu hiện có, chúng tôi đề xuất một khuôn khổ để nghiên cứu lập trình tác nhân tương tác. Khung này dựa trên phân tích bảo vệ quyền riêng tư của khoảng 400.000 phiên Claude Code trong khoảng thời gian từ tháng 10 năm 2025 đến tháng 4 năm 2026, đánh giá thành phần nhiệm vụ, cách con người và AI cộng tác cũng như tỷ lệ thành công của nhiệm vụ.
Trong một cuộc trò chuyện điển hình, con người chịu trách nhiệm về hầu hết các quyết định lập kế hoạch, quyết định "phải làm gì"; Claude chịu trách nhiệm về hầu hết các quyết định thực hiện, quyết định "làm thế nào để hoàn thành nó". Chuyên môn của người dùng trong một lĩnh vực nhất định càng cao thì khối lượng công việc mà mỗi lệnh yêu cầu Claude hoàn thành càng lớn. Khi nói đến nhiệm vụ viết mã, tỷ lệ thành công trung bình giữa các nhóm nghề nghiệp chính—nghĩa là liệu nó có hoàn thành những gì người dùng muốn làm ban đầu hay không và có bằng chứng xác minh như vượt qua bài kiểm tra và gửi mã—gần giống với tỷ lệ của các kỹ sư phần mềm.
Người dùng càng có hiểu biết sâu rộng về miền thì phiên kết thúc thành công càng có nhiều khả năng. Tuy nhiên, khoảng cách giữa người dùng trung cấp và chuyên gia không quá lớn. Trong bảy tháng chúng tôi quan sát thấy, tỷ lệ phiên dành cho việc gỡ lỗi đã giảm gần một nửa và việc sử dụng chuyển sang sử dụng tác nhân từ đầu đến cuối nhiều hơn: triển khai và chạy mã, phân tích dữ liệu và viết tài liệu không phải mã.
Trong bảy tháng, giá trị của các nhiệm vụ điển hình đã tăng lên ở hầu hết các loại công việc. Chúng tôi ước tính giá trị nhiệm vụ bằng cách so sánh nó với các tin tuyển dụng việc làm tự do, cho thấy mức tăng trung bình khoảng 25%.
Giới thiệu
Lập trình tác nhân đang phát triển nhanh chóng. Tỷ lệ hoạt động của tác nhân mã hóa trong các dự án GitHub đã tăng hơn gấp đôi kể từ cuối năm 2025, với người dùng Claude Code hiện sử dụng công cụ này trung bình 20 giờ mỗi tuần. Liệu một người không có kinh nghiệm lập trình chính thức có thể chỉ đạo thành công một nhân viên hoàn thành các nhiệm vụ kỹ thuật phức tạp không? Việc áp dụng nhanh chóng và khả năng của những công cụ này sẽ tác động như thế nào đến công việc tri thức rộng hơn? Chúng tôi chưa có câu trả lời hoàn chỉnh nhưng chúng tôi có thể thấy một số tín hiệu ban đầu trong dữ liệu sử dụng của Claude Code.
Báo cáo này cung cấp bằng chứng về cách Claude Code thực sự được sử dụng, dựa trên phân tích bảo vệ quyền riêng tư của khoảng 235.000 người dùng và khoảng 400.000 phiên tương tác từ tháng 10 năm 2025 đến tháng 4 năm 2026. Báo cáo này tiếp tục nghiên cứu trước đây của chúng tôi về các số liệu về quyền tự chủ trong các phiên Claude Code và cách Claude Code thay đổi hoạt động bên trong của Anthropic. Bài viết này sẽ đề xuất một khung mô tả việc sử dụng trợ lý lập trình AI tương tác: mọi người làm công việc gì, ai thực hiện công việc và liệu công việc có thành công hay không. Chúng tôi tập trung vào người dùng sử dụng Claude Code thông qua giao diện dòng lệnh (CLI), Claude.ai hoặc ứng dụng máy tính để bàn Claude Code. Bằng cách theo dõi cách sử dụng chương trình tác nhân thay đổi như thế nào khi khả năng của mô hình tăng lên, chúng tôi có thể hiểu rõ hơn tác động của những công cụ này lên thị trường lao động dành cho các chuyên gia lập trình và người lao động tri thức.
Những gì xảy ra tại Claude Code có thể chỉ ra hướng đi tương lai của công việc tri thức: các tác nhân sẽ dần dần được nhúng vào công việc không mã hóa. Chúng tôi phát hiện ra rằng Claude đang xử lý những nhiệm vụ phức tạp và có giá trị hơn. Đồng thời, vẫn có sự phân công lao động rõ ràng trong lập trình tác nhân: con người quyết định xây dựng cái gì và các tác nhân quyết định cách xây dựng nó.
Chúng tôi cũng thấy bằng chứng cho thấy chính kiến thức chuyên môn về lĩnh vực chứ không phải trình độ lập trình mới thực sự khuếch đại tác động của việc sử dụng công cụ. Đặc biệt, các chuyên gia về miền có nhiều khả năng thành công hơn và dễ dàng khắc phục những sai sót, hiểu lầm hơn. Tuy nhiên, khoảng cách giữa chuyên gia và người dùng trung gian không quá lớn. Điều này cho thấy rằng nếu có đủ trình độ thông thạo trong một lĩnh vực, một người có thể sử dụng những công cụ đó một cách hiệu quả gần như một chuyên gia sâu.
Những phát hiện này cung cấp cái nhìn đầu tiên về những thay đổi có thể xảy ra trên thị trường lao động. Trong dữ liệu của chúng tôi, thành công phụ thuộc vào việc một người có hiểu được vấn đề mà họ đang cố gắng giải quyết hay không chứ không phải liệu người đó có được đào tạo về lập trình hay không. Nếu những mô hình này đúng trong toàn bộ nền kinh tế, điều đó có nghĩa là mặc dù các công cụ lập trình tác nhân có thể đang thực hiện một số công việc định hướng triển khai nhưng chúng cũng khen thưởng những người thực sự hiểu vấn đề mà họ đang nỗ lực giải quyết. Việc mã hóa một tác nhân không thể thay thế cho kiến thức chuyên môn về miền. Ngược lại, người lao động càng mang đến cho đại lý nhiều sự hiểu biết thì đại lý càng có thể hoàn thành công việc chất lượng cao hơn.
Bộ Lao động
Mọi người làm gì với Bộ luật Claude
Để hiểu cách mọi người sử dụng Bộ luật Claude, chúng tôi phân loại mỗi buổi học thành một trong chín chế độ làm việc, một hoạt động duy nhất mô tả đúng nhất mục tiêu của buổi học đó. Bốn trong số các mô hình liên quan đến việc trực tiếp viết hoặc duy trì mã: xây dựng những thứ mới, sửa chữa những thứ bị hỏng, kiểm tra mã và điều phối các tác nhân khác hoặc quy trình tự động. Danh mục còn lại là phần mềm vận hành, bao gồm triển khai, cấu hình, chạy đường ống và hệ thống giám sát. Hai hạng mục khác tập trung hơn vào việc tìm ra "việc cần làm": hiểu cách hoạt động của hệ thống hiện tại và lập kế hoạch thay đổi trước khi thực hiện thay đổi. Hai danh mục cuối cùng không liên quan gì đến mã hoặc mã chỉ là một phần phụ trợ của sản phẩm cuối cùng: phân tích dữ liệu và giao tiếp thông qua bản trình bày và các tài liệu dựa trên văn bản khác.
Khoảng 56% phiên bao gồm viết mã (25%), sửa mã (26%) hoặc kiểm tra và điều phối mã (5%). Phần mềm điều hành chiếm 17%, lập kế hoạch hoặc khám phá 14% và phân tích hoặc viết văn bản 13% (xem Hình 1).

Hình 1: Chín chế độ làm việc. Mỗi phiên tương tác được phân loại thành một chế độ làm việc duy nhất mô tả đúng nhất các mục tiêu của nó.
Chúng tôi phân loại từng phiên bằng cách yêu cầu mô hình đọc bản ghi phiên; sau đó, chúng tôi sử dụng các công cụ phân tích bảo vệ quyền riêng tư của mình để xác thực chéo các kết quả phân loại bằng dữ liệu đo từ xa được ghi lại tự động cho mỗi phiên, bao gồm cả việc các dòng mã đã được thêm hay bị xóa. Có sự nhất quán cao giữa hai loại nguồn. Ví dụ: hơn 90% các phiên mà trình phân loại của chúng tôi gắn cờ là đang tạo hoặc sửa đổi mã cũng cho thấy sự hiện diện của các thay đổi mã trong dữ liệu đo từ xa. Xem phụ lục để biết chi tiết.
Ai đưa ra quyết định
Claude Code có quyền tự chủ như thế nào? Đánh giá năng lực cho thấy mức trần đã cao và đang tăng lên. Trong các tiêu chuẩn như Đánh giá khoảng thời gian của METR, các mô hình tiên tiến hiện có thể tự động hoàn thành các tác vụ phần mềm mà con người có thể phải mất hàng giờ đồng hồ, tự mình vượt qua các trở ngại trong quá trình này. Nhưng tình hình sử dụng thực tế là gì? Ở đây, chúng tôi tập trung vào mức độ hướng dẫn mà mỗi người thực hiện giữa con người và Claude trong một cuộc trò chuyện thực sự.
Chúng tôi nghiên cứu vấn đề này từ hai góc độ. Đầu tiên, chúng tôi xem xét mức độ mọi người giao quyền quyết định cho Claude; thứ hai, chúng tôi xem họ giao cho Claude bao nhiêu hành động. Để hiểu sự phân chia việc ra quyết định trong một phiên, chúng tôi xây dựng trình phân loại phân bổ quyết định bảo vệ quyền riêng tư dựa trên nội dung phiên. Chúng tôi yêu cầu trình phân loại liệt kê tất cả các quyết định có ý nghĩa trong phiên và phân loại các quyết định này thành quyết định lập kế hoạch và quyết định thực hiện. Các quyết định về lập kế hoạch bao gồm những việc cần làm, sử dụng phương pháp nào và những gì được coi là đã hoàn thành; các quyết định thực thi bao gồm tệp nào cần sửa đổi, mã nào cần viết, ngôn ngữ nào cần viết và lệnh nào sẽ chạy. Sau đó, bộ phân loại gán từng quyết định cho Claude hoặc người dùng và tạo ra hai số cho mỗi phiên: tỷ lệ các quyết định lập kế hoạch được quy cho người dùng và tỷ lệ các quyết định thực hiện được quy cho người dùng.
Trung bình, con người đưa ra khoảng 70% quyết định lập kế hoạch nhưng chỉ đưa ra 20% quyết định thực hiện (xem Hình 2). Trong sử dụng thực tế, lập trình tác nhân hình thành sự phân công lao động rõ ràng: con người quyết định xây dựng cái gì và các tác nhân quyết định cách xây dựng nó.
Để hiểu mức độ ủy quyền hành động trong một cuộc trò chuyện, chúng ta không nhìn vào nội dung mà nhìn vào cấu trúc cuộc trò chuyện. Phiên Mã Claude bao gồm sự tương tác qua lại giữa Claude và người dùng: người dùng gửi một lời nhắc, Claude thực hiện một hành động; sau đó người dùng sẽ gửi từ nhắc tiếp theo, v.v. Trong một phiên điển hình, có khoảng bốn vòng như vậy. Trong dữ liệu lịch sử của chúng tôi từ tháng 10 đến tháng 4, mỗi lời nhắc do người dùng kích hoạt đã kích hoạt trung bình khoảng 10 hành động từ Claude và đôi khi hơn 100 hành động. Trong mỗi vòng, Claude đọc tệp, chỉnh sửa mã, chạy lệnh và xuất ra trung bình 2.400 từ.
Số lượng công việc Claude hoàn thành giữa các lần kiểm tra của người dùng phụ thuộc phần lớn vào người đưa ra quyết định. Khi người dùng giữ quyền kiểm soát quá trình thực hiện, tức là khi người dùng đưa ra hơn 80% các quyết định thực hiện, Claude thực hiện ít hành động hơn mỗi vòng, khoảng 8. Và khi Claude có quyền kiểm soát lập kế hoạch, tức là khi Claude đưa ra hơn 80% các quyết định lập kế hoạch, Claude thực hiện số lượng hành động cao nhất, khoảng 16.

Hình 2: Chia sẻ của Claude về lập kế hoạch và thực hiện các quyết định. Biểu đồ này hiển thị tỷ lệ các quyết định lập kế hoạch (phải làm gì) và các quyết định thực hiện (làm như thế nào) được quy cho Claude chứ không phải cho người dùng trong các phiên. Trong một phiên thông thường, người dùng đưa ra khoảng 70% quyết định lập kế hoạch và Claude đưa ra khoảng 80% quyết định thực hiện.
Mức độ chuyên môn
Dựa trên mỗi bản ghi phiên, Claude đánh giá trình độ chuyên môn rõ ràng của người dùng trong nhiệm vụ theo thang điểm năm, từ người mới đến chuyên gia. Bộ phân loại chuyên môn tập trung vào ba tín hiệu: người dùng đưa ra hướng dẫn chính xác như thế nào, người dùng yêu cầu Claude xác minh điều gì và liệu người dùng đã sửa Claude thường xuyên hơn hay Claude đã sửa cho người dùng thường xuyên hơn. Cần lưu ý rằng trình độ chuyên môn ở đây là một khái niệm hoàn toàn khác với vị trí hay năng lực chung, và điều quan trọng là nó mang tính đặc thù của nhiệm vụ. Một kỹ sư cấp cao lần đầu tiên đặt câu hỏi về Rust có thể vẫn là người mới bắt đầu thực hiện nhiệm vụ Rust. Một nhân viên kế toán chưa bao giờ sử dụng Python sẽ là một chuyên gia trong công việc này nếu anh ta có thể cho Claude biết chính xác những quy tắc hòa giải mà một tập lệnh Python nhất định phải thực hiện và nắm bắt các trường hợp nghiêm trọng mà nó xử lý sai trong quá trình kết thúc tháng.
Bảng sau đây cho thấy cách chúng tôi xác định các cấp độ chuyên môn khác nhau trong trình phân loại, với các yêu cầu mẫu từ tập dữ liệu cuộc trò chuyện của tổng đài viên được mã hóa công khai SWE-chat. Các cuộc hội thoại được phân loại là "người mới" đưa ra hướng dẫn chung và không phản ánh kiến thức về lĩnh vực cụ thể; các cuộc trò chuyện được phân loại là "chuyên gia" truyền tải sự hiểu biết sâu sắc về cơ sở mã và môi trường kỹ thuật.

Bảng 1: Phân loại cấp độ chuyên nghiệp. Các ví dụ được viết lại, ẩn danh và nén từ các cuộc hội thoại thực được trình phân loại của chúng tôi chú thích. Nhiều ví dụ trong số này đến từ SWE-chat, một tập dữ liệu có sẵn công khai về các phiên lập trình tổng đài viên.
Chúng tôi đã định lượng mối quan hệ giữa trình độ chuyên môn với số lượng sản phẩm và hoạt động do Claude tạo ra trên mỗi từ gợi ý. Trong một buổi học thông thường của người mới, mỗi từ nhắc nhở sẽ kích hoạt Claude thực hiện khoảng 5 hành động và xuất ra khoảng 600 từ; trong phiên chuyên gia, chuỗi hành động dài hơn gấp đôi so với phiên trước, khoảng 12 hành động và đầu ra đạt khoảng 3200 từ, nhiều gấp năm lần so với phiên trước (xem Hình 3). Khoảng cách giữa người mới và chuyên gia này xảy ra ở mọi loại công việc và trong mọi phạm vi giá trị nhiệm vụ.
Những số liệu này bổ sung cho nghiên cứu về quyền tự chủ trước đây của chúng tôi về Mã Claude. Nghiên cứu trước đây đã theo dõi thời gian hoạt động của một tác nhân và tần suất người dùng tự động phê duyệt hành động của tác nhân đó. Ngược lại, số liệu phân bổ quyết định của chúng tôi ghi lại ai đang đưa ra các quyết định quan trọng trong suốt phiên, trong khi lượng đầu ra và hành động được kích hoạt bởi mỗi từ gợi ý đo lường mức độ mà mỗi hướng dẫn của con người gợi ra hoạt động tự chủ từ Claude.

Hình 3: Đối mặt với nhiều người dùng chuyên nghiệp hơn, Claude đã hoàn thành nhiều công việc hơn trên mỗi từ gợi ý. Trình độ chuyên môn càng cao thì Claude thực hiện càng nhiều hành động trên mỗi từ nhắc (biểu đồ thanh bên trái) và số lượng văn bản đầu ra (biểu đồ thanh bên phải). Các hộp biểu thị các phạm vi liên vùng, được cắt ở điểm giữa. Râu đại diện cho phân vị thứ 5 đến 95. Điểm trắng là giá trị trung bình hình học. Cả hai xu hướng đi lên đều có ý nghĩa thống kê (p < 0,001), cũng như sự khác biệt từng bước giữa các cấp độ chuyên môn liền kề. Sau khi kiểm soát chế độ làm việc, giá trị nhiệm vụ, tháng, nghề nghiệp và chuỗi mô hình cũng như phân cụm các lỗi tiêu chuẩn theo người dùng, xu hướng này vẫn còn đáng kể: mỗi cấp độ chuyên môn sẽ tăng số lượng hành động lên 9% và sản lượng lên 13%.
Ai sử dụng Mã Claude và họ làm gì với mã đó
Người dùng
Để hiểu ai đang thực hiện công việc, chúng tôi suy ra nghề nghiệp của từng người dùng từ các bản ghi phiên và ánh xạ nó tới một trong 23 danh mục chính trong hệ thống Phân loại Nghề nghiệp Tiêu chuẩn (SOC) của Cục Thống kê Lao động Hoa Kỳ. Trình phân loại được yêu cầu chỉ đưa ra đánh giá dựa trên các tín hiệu sau: bối cảnh dự án được tác nhân tải vào đầu phiên, tên và cấu trúc tệp, tài liệu hoặc tạo phẩm được người dùng tham chiếu, chẳng hạn như tài liệu pháp lý, dữ liệu lâm sàng, báo cáo tài chính, tài liệu khóa học, v.v. và từ vựng được người dùng sử dụng. Các bộ phân loại được yêu cầu rõ ràng không coi việc "viết mã" là bằng chứng cho thấy người dùng có nghề lập trình. Các phiên được xếp vào danh mục SOC liên quan đến mã hóa, "Nghề nghiệp Máy tính và Toán học", chỉ khi có tín hiệu rõ ràng rằng công việc phần mềm hoặc dữ liệu là nghề nghiệp của người dùng. Nếu một luật sư xây dựng một đoạn script tự động kiểm tra xem một số điều khoản có bị thiếu trong một bộ hợp đồng hay không thì nó vẫn được phân loại là một nghề luật mặc dù phiên chủ yếu là về viết phần mềm. Nếu không có tín hiệu về nghề nghiệp của người dùng thì phiên này sẽ không được phân loại.
Chúng tôi có thể suy ra nghề nghiệp trong khoảng 70% số phiên. Trong số các cuộc trò chuyện có thể phân loại này, “Nghề nghiệp Toán học và Máy tính” là nhóm lớn nhất, điều này không có gì đáng ngạc nhiên vì danh mục này bao gồm hầu hết các công việc liên quan đến phần mềm. Tiếp theo là hoạt động kinh doanh và tài chính, thiết kế nghệ thuật và truyền thông, quản lý và khoa học đời sống, khoa học vật lý và khoa học xã hội. Các nhóm nghề nghiệp phi phần mềm phát triển nhanh nhất trong mẫu của chúng tôi là quản lý, bán hàng và nghề pháp lý.
Công việc
Cơ cấu công việc được thực hiện bởi những người sử dụng Claude Code đã thay đổi đáng kể từ tháng 10 năm 2025 đến tháng 4 năm 2026. Thay đổi rõ ràng nhất là tỷ lệ phần trăm số phiên dành để sửa mã bị hỏng giảm từ 33% xuống 19% (xem Hình 4). Thay vào đó, nhiều công việc xoay quanh mã hơn. Phần mềm điều hành tăng từ 14% lên 21%. Khả năng viết và phân tích dữ liệu tăng gần gấp đôi, từ khoảng 10% lên khoảng 20%.
Bản thân giá trị của các nhiệm vụ cũng ngày càng tăng lên. Chúng tôi ước tính giá trị kinh tế của mỗi phiên bằng cách ước tính chi phí của công việc tương tự trên thị trường việc làm tự do, được hiệu chỉnh bằng cách sử dụng tập dữ liệu về các công việc công thực sự. Theo số liệu này, giá trị ước tính của phiên trung bình đã tăng 27% trong khoảng thời gian từ tháng 10 đến tháng 4. Sự gia tăng xảy ra ở nhiều loại công việc khác nhau. Giá trị của các công việc xây dựng, vận hành và sửa chữa tăng lần lượt khoảng 43%, 34% và 32%. Những ước tính giá này là thô nên chúng tôi chủ yếu sử dụng chúng để so sánh xu hướng theo thời gian giữa các nhiệm vụ khác nhau chứ không phải là giá trị đồng đô la có thể đọc được trực tiếp. Chi tiết về cách xây dựng công cụ ước tính giá trị nhiệm vụ có thể được tìm thấy trong Phụ lục.

Hình 4: Thành phần và giá trị công việc của Claude Code thay đổi từ tháng 10 năm 2025 đến tháng 4 năm 2026. Biểu đồ này hiển thị tỷ lệ các phiên ở mỗi chế độ làm việc trong khoảng thời gian 7 tháng. Tỷ lệ phiên sửa mã lỗi giảm từ 33% xuống 19%, trong khi vận hành phần mềm, phân tích dữ liệu và viết tài liệu đều tăng.
Thành công phụ thuộc vào những gì người dùng mang lại
Ước tính giá trị của một nhiệm vụ là một cách để hiểu cách Claude Code giúp mọi người hoàn thành công việc của họ. Một góc độ khác là xem có bao nhiêu phiên thành công và đặc điểm nào của phiên có liên quan đến thành công. Trên tất cả các chỉ số thành công, chúng tôi thấy một mô hình rõ ràng: người dùng càng thể hiện nhiều kiến thức chuyên môn trong một phiên thì phiên đó càng có nhiều khả năng thành công. Hầu hết các cải tiến đều tập trung ở phần dưới của phạm vi chuyên nghiệp, nghĩa là khoảng cách từ người mới bắt đầu đến người dùng trung cấp lớn hơn khoảng cách từ người dùng trung cấp đến người dùng chuyên nghiệp.
Trước khi phân tích đặc điểm của các phiên thành công, chúng tôi cần giải thích chính xác cách đo lường thành công. Chúng tôi không thể quan sát kết quả thực tế của người dùng và chúng tôi không thể trực tiếp hỏi họ xem họ có hoàn thành những gì họ muốn làm với Claude hay không. Do đó, chúng tôi dựa vào hai biện pháp bổ sung dựa trên ghi phiên. Đầu tiên là “quyết định thành công”. Trình phân loại đọc bản ghi phiên hoàn chỉnh và xác định xem người dùng có hoàn thành mục tiêu mà mình đặt ra ban đầu hay không. Các lựa chọn bao gồm thành công, thành công một phần, thất bại và không có mục tiêu rõ ràng. Sau đó, hai bộ phân loại đồng hành sẽ đánh giá độ mạnh của bằng chứng cho phán đoán đó để xác định "thành công đã được xác thực". Trình phân loại tín hiệu thành công tìm kiếm bằng chứng có thể kiểm chứng về sự thành công, đặc biệt bao gồm các hoạt động git phù hợp với công việc, chẳng hạn như các yêu cầu cam kết và kéo, vượt qua bộ thử nghiệm và xác nhận rõ ràng của người dùng. Nó chấm điểm các phiên theo thang điểm từ "không có tín hiệu" đến "tín hiệu yếu" (1 điểm) đến "nhiều tín hiệu cứng" (5 điểm). Trình phân loại tín hiệu lỗi song song sẽ ghi lại bằng chứng cho thấy mọi thứ đã sai, bao gồm lỗi, thử nghiệm không thành công, thử đi thử lại cùng một thứ và sự phản đối của người dùng đối với kết quả đầu ra. Thành công đã được xác minh yêu cầu phải có hai điều kiện đúng: phiên được xác định là thành công và có ít nhất một tín hiệu thành công chắc chắn, có thể kiểm chứng được. Phân tích sau đây tập trung vào mức độ thành công hay thất bại trong một phiên, vì vậy, chúng tôi loại trừ các phiên được bộ phân loại kết quả thành công đánh giá là "không có mục tiêu rõ ràng", chiếm khoảng 7,7% trong toàn bộ mẫu.
Phần thưởng của tính chuyên nghiệp
Vậy, buổi học nào có nhiều khả năng thành công nhất? Kết quả cho thấy xếp hạng chuyên môn đàm thoại được mô tả ở trên có tác động mạnh mẽ đến sự thành công của cuộc đàm thoại.
Người ta có thể lo lắng rằng tính chuyên nghiệp không thực sự là yếu tố thúc đẩy. Có thể các chuyên gia chỉ đơn giản chọn những nhiệm vụ khác nhau hoặc khác nhau theo những cách khác. Trong phần này, chúng tôi giải đáp một phần mối lo ngại này bằng cách so sánh các phiên làm việc của cùng một loại công việc, có cùng giá trị ước tính, trong cùng một tháng, về cùng một chủ đề và từ cùng một nhóm nghề nghiệp rộng lớn, đồng thời xem xét mức độ chuyên môn khác nhau của người dùng ảnh hưởng đến kết quả như thế nào.

Bảng 2: Thành công và định nghĩa lỗi do bộ phân loại rút ra. Các ví dụ đến từ các cuộc hội thoại thực tế trong tập dữ liệu tương tác lập trình tác nhân công SWE-chat, được bộ phân loại của chúng tôi điều chỉnh, tóm tắt và chú thích.
Trong tất cả các số liệu thành công, mức độ chuyên môn mà người dùng thể hiện trong một phiên càng cao thì phiên đó càng có nhiều khả năng thành công. Các phiên được đánh giá là người mới đã thành công 15% thời gian theo số liệu nghiêm ngặt nhất của chúng tôi, thành công đã được xác minh và ít nhất đã thành công một phần trong 77% thời gian. Các phiên được xếp hạng trung cấp trở lên có tỷ lệ thành công đã được chứng minh là từ 28% đến 33% và tỷ lệ thành công một phần là 91% đến 92% (xem Hình 5).
Trong mỗi chỉ số, hầu hết lợi ích đều đến từ việc cải thiện từ người mới bắt đầu đến trình độ trung cấp; từ trung cấp đến chuyên gia, độ dốc chậm lại. Để biết chi tiết về phân tích hồi quy phía sau Hình 5, xem Phụ lục.

Hình 5: Trình độ chuyên môn và kết quả buổi học. Biểu đồ này hiển thị kết quả phiên, được xếp hạng theo năm cấp độ từ người mới đến chuyên gia, tùy theo mức độ chuyên môn của người dùng trong nhiệm vụ. Hình ảnh bên trái chứa tất cả các phiên. Biểu đồ ở giữa và bên phải được giới hạn ở các phiên gặp phải sự cố, tức là các phiên có tín hiệu lỗi lớn hơn 3 và hiển thị tỷ lệ các phiên đó cuối cùng đạt đến các định nghĩa khác nhau về thành công và thất bại. Mỗi điểm là một tỷ lệ được điều chỉnh. Chúng tôi ước tính sự khác biệt giữa các cấp độ chuyên môn khác nhau bằng cách chỉ so sánh các phiên có cùng mô hình công việc, cùng phạm vi giá trị nhiệm vụ, cùng tháng, cùng chủ đề nhiệm vụ và cùng loại người dùng, tức là dù có thuộc nghề nghiệp liên quan đến phần mềm hay không. Xem phụ lục để biết chi tiết hồi quy có liên quan. Râu là khoảng tin cậy cho giá trị trung bình của mẫu, hầu hết chúng quá nhỏ để có thể nhìn thấy trên biểu đồ. Các biểu đồ này loại trừ các phiên được bộ phân loại kết quả thành công đánh giá là "không có mục tiêu rõ ràng".
Độ dốc tương tự cũng có thể được nhìn thấy trong các phiên thử thách. Chúng tôi coi phiên đã "gặp sự cố" khi tín hiệu lỗi được ghi lại cùng với bằng chứng đã được xác minh về lỗi. Điều này có thể bao gồm lỗi, thử nghiệm không thành công, nhiều lần cố gắng hoàn thành cùng một việc hoặc người dùng bày tỏ sự thất vọng và không hài lòng. Trong số các phiên có vấn đề, tỷ lệ thành công được xác minh đã tăng từ 4% phiên mới làm quen lên 15% phiên chuyên gia, kiểm soát tất cả các biến trên (xem Hình 5). Sử dụng các thước đo thành công lỏng lẻo hơn, chúng tôi nhận thấy rằng tỷ lệ thành công ít nhất một phần dao động từ 60% ở người dùng mới làm quen đến 80% đến 81% ở người dùng trung cấp đến chuyên gia.
Chúng tôi cũng theo dõi một mối quan hệ nghịch đảo khác, giữa chuyên môn và các chỉ số thất bại khác nhau. Điều quan trọng cần lưu ý là trong phân tích này, những phiên được đánh giá là thất bại là những phiên không đạt được thành công dù chỉ một phần. Nếu một phiên gặp sự cố được đánh giá là không thành công và không có dòng mã nào được viết, chúng tôi cho rằng phiên đó đã bị bỏ dở. 19% số phiên mà người dùng có vẻ là người mới cuối cùng đã bị bỏ qua, so với 5% đến 7% ở các nhóm người dùng khác. Nói cách khác, người dùng có ít kinh nghiệm nhất có nhiều khả năng bỏ cuộc khi họ đang cố gắng đạt được mục tiêu nhưng gặp khó khăn. Một phần giá trị của chuyên môn dường như nằm ở việc có thể hướng dẫn nhân viên đi đúng hướng.
Sự nghiệp có thể không quan trọng bằng tính chuyên nghiệp
Tỷ lệ thành công được xác minh qua tất cả các phiên là khoảng 30% đối với người dùng trong các ngành nghề liên quan đến phần mềm và khoảng 26% đối với người dùng trong các ngành nghề khác. Trong số các phiên tạo mã, tức là các phiên trong đó ít nhất một dòng mã mới được thêm hoặc sửa đổi, con số này lần lượt là 34% và 29% (xem Hình 6). Nếu sử dụng một định nghĩa lỏng lẻo hơn về thành công, khoảng cách giữa các nghề nghiệp liên quan đến phần mềm và các nghề nghiệp khác sẽ càng thu hẹp lại. Trong số các phiên tạo mã, lần lượt 89% và 88% của hai loại người dùng này đã thành công ít nhất một phần. Khoảng cách 5 điểm phần trăm không lớn và không tăng cũng không thu hẹp trong 7 tháng, ngay cả khi tỷ lệ thành công được cải thiện ở cả hai nhóm. Mỗi nhóm trong số mười nhóm nghề nghiệp lớn nhất trong tập dữ liệu của chúng tôi đều có tỷ lệ thành công nằm trong khoảng bảy điểm phần trăm đối với các kỹ sư phần mềm trong các phiên tạo mã. Nghề quản lý có tỷ lệ thành công đã được chứng minh là cao nhất, cao hơn một chút so với nghề kỹ thuật phần mềm. Tỷ lệ thành công được xác minh cao hơn của người quản lý có thể phản ánh việc chuyển giao các kỹ năng quản lý sang nhiệm vụ của các đại lý chỉ huy. Nhưng nó cũng có thể một phần đến từ cách chúng tôi đo lường: việc xác thực một phần dựa vào xác nhận rõ ràng từ người dùng trong phiên và người quản lý có thể thoải mái hơn khi bày tỏ khi họ nhận được kết quả mong muốn.

Hình 6: Quyết tâm và tỷ lệ thành công đã được xác minh cho các phiên mã hóa theo nghề nghiệp được suy luận. Biểu đồ này hiển thị tỷ lệ thành công được xác định nghiêm ngặt, bao gồm cả thành công được đánh giá và xác minh, theo nghề nghiệp được suy luận của người dùng trong số các phiên trong đó ít nhất một dòng mã đã được thêm hoặc sửa đổi. Dưới đây là mười nhóm nghề nghiệp lớn nhất. Tỷ lệ thành công của mỗi nhóm nằm trong khoảng bảy điểm phần trăm đối với người sử dụng phần mềm/toán học, phân loại SOC về nghề tính toán và toán học. Thanh lỗi biểu thị khoảng tin cậy 95% được tính toán dựa trên các tài khoản khác nhau.
Triển vọng
Kết quả của báo cáo này phác thảo một bức tranh mới nổi: lập trình tác nhân đang khuếch đại một số kiến thức và kỹ năng trong khi thay thế những kiến thức và kỹ năng khác. Trong các phiên tạo mã, tỷ lệ thành công cho từng nghề chính tương tự như các nghề liên quan đến phần mềm. Có vẻ như các tác nhân mã hóa đang khiến nền tảng lập trình trở nên ít quan trọng hơn để hoàn thành thành công các nhiệm vụ lập trình.
Đồng thời, các cuộc trò chuyện thành công có nhiều khả năng thể hiện kiến thức chuyên môn về lĩnh vực hơn. Các phiên được đánh giá là chuyên gia có tỷ lệ thành công đã được chứng minh cao hơn gấp đôi so với các phiên dành cho người mới bắt đầu. Người mới cũng có khả năng bỏ cuộc khi một phiên gặp sự cố cao hơn gấp nhiều lần so với những người dùng khác. Bản thân phương pháp hợp tác đã làm cho bức tranh này trở nên rõ ràng hơn: các chuyên gia trong lĩnh vực có thể hướng dẫn Claude mọi hướng dẫn để hoàn thành được nhiều việc hơn. Vì vậy, khả năng đưa Claude đến thành công đến từ việc thông thạo một lĩnh vực nhất định hơn là khả năng viết mã. Bất kỳ ai có khả năng thành thạo như vậy trong bất kỳ lĩnh vực nào giờ đây đều có thể hoàn thành các nhiệm vụ kỹ thuật mà trước đây không thể thực hiện được. Những người thiếu hiểu biết chuyên môn này sẽ thu được ít lợi ích hơn nhiều ngay cả khi họ sử dụng cùng các công cụ. Hơn nữa, lợi ích chủ yếu đến từ năng lực chứ không phải từ sự thông thạo. Hầu hết các lợi ích đều đạt được nhờ hiểu biết hữu ích về một lĩnh vực; chuyên môn hóa sâu chỉ mang lại một vài lợi thế bổ sung.
Những phát hiện này vẫn còn sơ bộ. Giống như hầu hết các nghiên cứu của chúng tôi, chúng tôi không thể đo lường kết quả trong thế giới thực, chẳng hạn như liệu mã được viết trong một phiên sau đó có được sử dụng hay loại bỏ hay liệu nó có tạo ra kết quả có giá trị kinh tế hay không. Ngoài ra, việc sử dụng không tương tác, được loại trừ khỏi báo cáo này, chiếm một phần đáng kể trong hoạt động tổng thể. Phát triển một khuôn khổ có khả năng đo lường loại hình sử dụng này là một trọng tâm của công việc trong tương lai. Hơn nữa, tất cả các phân loại phiên của chúng tôi đều dựa vào việc đọc bản ghi phiên của mô hình. Trong Phụ lục, chúng tôi cho thấy rằng bộ phân loại nhất quán theo các hướng dự kiến với dữ liệu đo từ xa độc lập và nhất quán với các đánh giá mô hình tham chiếu mạnh mẽ trong hầu hết các phiên. Nhưng việc xác nhận các bộ phân loại vẫn còn khó khăn ở quy mô lớn; Bản thân các phiên Claude Code cũng gây thêm khó khăn vì chúng có thể quá dài và phức tạp để sử dụng chú thích của con người làm đường cơ sở thực sự.
Khi các mô hình, người dùng và sự phân công lao động giữa họ tiếp tục thay đổi, bức tranh trong báo cáo này sẽ tiếp tục được cập nhật. Chúng tôi hy vọng những số liệu này sẽ giúp chúng tôi theo dõi những thay đổi quan trọng đang diễn ra. Ví dụ: nếu lợi nhuận từ cấp độ chuyên môn bắt đầu giảm trong tương lai, điều đó cho thấy rằng các mô hình bắt đầu đưa ra phán đoán quan trọng mà người dùng hiện đang đưa ra và lợi ích của những công cụ này không chỉ dành cho các chuyên gia trong lĩnh vực mà còn đến với dân số rộng hơn. Nếu tỷ lệ hoàn thành thành công các phiên viết mã giữa những người dùng bên ngoài ngành phần mềm tiếp tục tăng, điều đó có thể có nghĩa là sản xuất phần mềm đang trở thành một phần công việc phổ biến trong nhiều lĩnh vực khác nhau, thay vì là sản phẩm của một nghề duy nhất. Những thay đổi này sẽ thay đổi những người được hưởng lợi từ các đại lý lập trình và mức độ hưởng lợi từ các đại lý lập trình, đồng thời tác động đến những năng lực được đánh giá cao nhất trên thị trường lao động.
