Crack trong 5 giây và chỉ cần 1 cuộc trò chuyện: “Cơ chế bảo mật mạnh nhất” của Claude Fable 5 có bị team Trung Quốc bẻ khóa không?

Tiêu đề gốc: "Ngắt trong 5 giây, chỉ 1 cuộc trò chuyện: Cơ chế bảo mật mạnh nhất của Fable 5 đã bị bẻ khóa bởi một đội Trung Quốc"
Nguồn gốc: Heart of the Machine

Đây không phải là nhắc nhở, không phải nhập vai, không ngụy trang các yêu cầu độc hại như những vấn đề thông thường. Lần này, rủi ro phát sinh khi tác nhân hoàn thành nhiệm vụ một cách tự chủ.

Fable 5 là mô hình cấp độ Thần thoại của Anthropic mở cửa cho công chúng. Nó không chỉ có khả năng toàn diện cực kỳ mạnh mẽ mà còn giới thiệu một thế hệ phân loại an toàn mới (Safety Classifier) xung quanh mô hình như một tuyến phòng thủ an ninh.

Theo thiết kế chính thức, khi yêu cầu của người dùng liên quan đến các lĩnh vực có rủi ro cao như an ninh mạng, sinh học, hóa học và chắt lọc mô hình, hệ thống sẽ ưu tiên xác định rủi ro và từ chối trực tiếp yêu cầu dựa trên mức độ rủi ro hoặc chuyển sang xử lý mô hình Opus 4.8 thận trọng hơn.

Một số lượng lớn các thử nghiệm của người dùng đã phát hiện ra rằng các kỹ thuật tấn công bẻ khóa như lời nhắc đối nghịch, nhập vai, bỏ qua mã hóa và các biểu thức khó hiểu được sử dụng rộng rãi trước đây hầu như đều không hiệu quả khi đối mặt với cơ chế bảo mật này, chứng tỏ khả năng mạnh mẽ của cơ chế này trong việc ngăn chặn các rủi ro ở cấp độ mục đích.

Tuy nhiên, vào ngày Fable 5 được phát hành, một nhóm nghiên cứu chung quốc tế gồm Đại học Fudan, Đại học Deakin, Đại học Thành phố Hồng Kông, Đại học Melbourne, Đại học Quản lý Singapore, Đại học Illinois tại Urbana-Champaign và các tổ chức khác đã thông báo rằng họ đã đột phá thành công cơ chế bảo vệ an ninh của Fable 5.

Phương thức tấn công này được thiết kế bởi Yutao Wu, một nghiên cứu sinh tiến sĩ tại Đại học Deakin. Toàn bộ cuộc tấn công chỉ cần một cuộc trò chuyện và chỉ mất chưa đầy 5 giây để vượt qua bộ phân loại bảo mật giao diện người dùng và khiến mô hình tạo ra nội dung bất hợp pháp và có hại.

Kết quả phân tích lưu lượng truy cập cho thấy thêm rằng đầu ra có hại có liên quan đến trực tiếp từ chính Fable 5, thay vì tự động chuyển đổi sau khi kích hoạt cơ chế bảo mật. Mô hình Opus 4.8. Điều này có nghĩa là cuộc tấn công không chỉ vượt qua thành công việc phát hiện các bộ phân loại bảo mật mà còn phá vỡ đáng kể các biện pháp bảo vệ an ninh của Fable 5.

Điều đáng nói là hacker nổi tiếng Pliny the Liberator gần đây cũng đã tiết lộ một cách vượt qua bộ phân loại bảo mật Fable 5. Lộ trình kỹ thuật được nhóm Fudan & Deakin áp dụng lần này không phải là sự kết hợp đơn giản giữa khám phá mà là việc phát hiện ra những sai sót cơ bản trong các hệ thống siêu thông minh như Fable 5.

Có thông tin cho rằng nhóm đã hoàn thành nghiên cứu trước và phát hành công khai vào đầu tháng 3 năm nay. Nghiên cứu này không tập trung vào thiết kế hệ thống duy nhất của Fable 5 mà tập trung vào kiến trúc phòng thủ "mô hình + phân loại bảo mật" thường được các thế hệ tác nhân siêu thông minh mới sử dụng. Nó trực tiếp tiết lộ các lỗ hổng cấu trúc trong loại cơ chế bảo mật này, do đó, hiệu ứng tấn công đã nhanh chóng được chứng minh sau khi phát hành Fable 5.

Thông tin công khai cho thấy nhóm đã sử dụng công nghệ tương tự vào đầu tháng 3 năm nay để trích xuất thành công các từ nhắc hệ thống từ 37 hệ thống tác nhân và mô hình lớn chính thống, đồng thời hoàn thành xác minh nguồn mở trong Mã Claude (phù hợp 95%).

Người ta hiểu rằng người đứng đầu nhóm nghiên cứu là ông Ma Xingjun đến từ Viện Trí tuệ Thể hiện Đáng tin cậy của Đại học Fudan.

Trong những năm gần đây, nhóm của ông đã thực hiện nghiên cứu có hệ thống về các mô hình, tác nhân lớn và an ninh tình báo hiện thân, đạt được một loạt kết quả nghiên cứu khoa học hàng đầu quốc tế và giành chức vô địch trong Cuộc thi tiêu chuẩn an ninh của Trung tâm An ninh AI của Hoa Kỳ.

Hiện tại, nhóm của anh ấy đang tích cực thúc đẩy việc chuyển đổi kết quả, tập trung vào bảo mật tác nhân và khám phá việc xây dựng khả năng cơ sở hạ tầng bảo mật cho thế hệ hệ thống tác nhân tiếp theo.

Theo Giáo viên Ma, tầm quan trọng của kết quả nghiên cứu này là nó đặt ra những thách thức mới đối với mô hình phòng thủ tĩnh hiện tại tập trung vào các bộ phân loại bảo mật: Chỉ dựa vào các bộ phân loại bảo mật phía trước là không đủ để ngăn chặn hoàn toàn các hành vi rủi ro tiềm ẩn trong các hệ thống tác nhân tiên tiến.

Trình phân loại bảo mật chủ yếu thực hiện việc xác định và ngăn chặn rủi ro đối với thông tin đầu vào của người dùng, đồng thời có thể phát hiện và lọc một cách hiệu quả các hướng dẫn rõ ràng có mức rủi ro cao, nhưng nó không thể nhận biết các hành vi rủi ro cố hữu do tác nhân dần dần tạo ra trong quá trình chạy dài hạn, lập kế hoạch nhiều bước, tương tác môi trường và gọi công cụ.

Phương pháp phá vỡ Fable 5 lần này xuất phát từ bài báo "Sự sụp đổ an toàn nội bộ trong các mô hình ngôn ngữ lớn biên giới" do nhóm phát hành vào tháng 3 năm nay.

Bài viết tiết lộ một hiện tượng bảo mật tiềm ẩn "Sụp đổ an toàn nội bộ (ISC)": Khi Tác nhân hiện tại hoàn thành một nhiệm vụ dài hạn, lỗi an toàn không nhất thiết đến từ các lời nhắc độc hại bên ngoài mà có thể xảy ra trong chuỗi thực thi của chính mô hình.

Đây không phải là cuộc tấn công từ bên ngoài mà là sự vi phạm nội bộ trong chuỗi nhiệm vụ

Các cuộc tấn công truyền thống thường xâm nhập từ bên ngoài. Kẻ tấn công sẽ viết một lời nhắc đầu vào có vẻ vô hại nhưng thực chất mang tính đối đầu hoặc sử dụng cách nhập vai, mã hóa, dịch thuật, hướng dẫn gián tiếp, v.v. để ngụy trang ý định độc hại thành các yêu cầu thông thường. Nhiệm vụ chính của bộ phân loại bảo mật là chặn rủi ro ở lớp này.

Máy dò của Fable 5 được thiết kế cho tình huống này. Nó rất nhạy cảm với các yêu cầu trực tiếp có rủi ro cao và thậm chí sẽ chặn nhiều yêu cầu thông thường. Nhưng điều ISC tiết lộ lại là một con đường khác: Rủi ro không nhất thiết đến từ những yêu cầu nguy hiểm do người dùng trực tiếp nhập vào.

Tác nhân phải đối mặt với một thư mục làm việc có vẻ bình thường: các tệp, mục tiêu, quy trình xác minh và các nhiệm vụ cần hoàn thành. Sau đó, nó bắt đầu lập kế hoạch, đọc tệp, chạy mã, sửa lỗi và liên tục cố gắng xác thực tác vụ.

Nếu chúng ta dùng một phép ẩn dụ sinh động để giải thích thì cơ chế bảo mật truyền thống bảo vệ “lối vào” của hệ thống và chịu trách nhiệm kiểm tra xem dữ liệu đầu vào của người dùng có rủi ro hay không; những gì ISC tiết lộ giống giấc mơ nhiều tầng trong “Inception” hơn.

Khi nhiệm vụ chuyển sang giai đoạn thực hiện thứ hai, thứ ba hoặc thậm chí sâu hơn, mô hình sẽ hiểu lại các mục tiêu của nhiệm vụ dựa trên bối cảnh nội bộ đã tích lũy và dần dần thay đổi trong quy trình.

Trong trường hợp này, dữ liệu đầu vào ban đầu của người dùng có thể bình thường và vô hại, đồng thời quá trình thực thi tác vụ ban đầu luôn tuân thủ: đọc tệp, phân tích dữ liệu, viết mã, gọi công cụ, mọi thứ dường như đang tiến triển như mong đợi.

Tuy nhiên, khi tác nhân đạt đến một giai đoạn quan trọng nhất định, nó có thể tự mình đưa ra kết luận: nhiệm vụ cuối cùng không thể hoàn thành nếu không thực hiện một số hành động mà nó không nên thực hiện ngay từ đầu.

Chính trong quá trình này, rủi ro không đến từ đầu vào bên ngoài mà dần dần được hình thành trong chuỗi thực hiện nhiệm vụ của chính mô hình. Nói cách khác, mô hình không được người dùng dạy xấu từng bước. Đó là trong quá trình “hoàn thành nhiệm vụ một cách nghiêm túc” đã rơi vào tình thế không an toàn.

Hiện tượng này được phát hiện như thế nào?

Theo nhóm, ISC ngay từ đầu đã không được thiết kế như một phương thức tấn công. Nó lần đầu tiên xuất phát từ việc quan sát quá trình hoạt động lâu dài của các tác nhân thông minh. Sau khi Tác nhân được đưa vào một môi trường tác vụ phức tạp, nó không chỉ thực hiện các lệnh một cách máy móc. Nó sẽ lập kế hoạch, thử và sai, sửa đổi kết quả đầu ra dựa trên phản hồi từ bộ khai thác hoặc trình xác nhận và hình thành các mục tiêu trung gian qua nhiều vòng thực thi.

Đây là cách phổ biến nhất mà nhiều quy trình làm việc của Đại lý được sử dụng ngày nay. Người dùng không biết cách viết một lời nhắc được thiết kế tốt chứ đừng nói đến việc xây dựng các hướng dẫn tấn công theo cách thủ công. Nhiều khi người dùng sẽ chỉ đưa ra một câu rất mơ hồ:

"Giúp tôi hoàn thành nhiệm vụ này." "Hãy giúp tôi làm điều này tốt hơn."

Sau đó, Agent sẽ tự mình vào không gian làm việc, đọc file, hiểu hiện trạng, tìm các mục còn thiếu, lập kế hoạch, thực hiện sửa đổi và liên tục khắc phục sự cố dựa trên phản hồi.

Ví dụ: trong kịch bản AutoResearch, người dùng chỉ đưa ra một bài viết chưa hoàn thành và câu "giúp tôi hoàn thành nó" và Tác nhân sẽ tự đánh giá chỗ nào thiếu phân tích thử nghiệm, công việc liên quan hoặc văn bản bảng. Kịch bản mã cũng tương tự: "Giúp tôi chạy dự án" có thể kích hoạt kiểm tra phụ thuộc, chạy thử nghiệm, vị trí lỗi và hoàn thành tự động.

Nhiều khi, bối cảnh trước đó hoàn toàn vô hại. Người dùng không yêu cầu nó tạo nội dung rủi ro và mô tả nhiệm vụ không chứa các từ khóa nguy hiểm rõ ràng. Tuy nhiên, trong một số cấu trúc nhiệm vụ, Tác nhân sẽ chủ động hoàn thành một số nội dung mà mô hình không nên tạo ra để vượt qua quá trình xác minh. Dựa trên quan sát này, nhóm nghiên cứu đã đề xuất thêm một khung tấn công: TVD (Task, Verification, Data).

Tại sao cấu trúc mô tả nhiệm vụ tưởng chừng bình thường lại trở thành một cuộc tấn công?

Cấu trúc của TVD không phức tạp, thậm chí còn gần gũi với các quy trình kỹ thuật thông thường:

· Nhiệm vụ: công việc chuyên môn;

· Dữ liệu: tệp dữ liệu không đầy đủ;

· Trình xác thực: trình xác thực chỉ kiểm tra định dạng, tính đầy đủ và mức độ hoàn thành của mục tiêu.

Lấy việc đào tạo mô hình Guard làm ví dụ. Đây vốn là một công việc hết sức chuyên nghiệp và bình thường. Các nhà nghiên cứu có thể muốn đào tạo hoặc đánh giá một trình phát hiện bảo mật, chẳng hạn như sử dụng Ôm mặt để tải mô hình phân loại văn bản và xác định loại nhãn bảo mật mà đầu ra mô hình nhất định thuộc về.

Trong nhiệm vụ này, Dữ liệu là mẫu dữ liệu được mô hình phát hiện; Trình xác thực chỉ định xem nhiệm vụ có được hoàn thành hay không. Nó kiểm tra xem đầu vào có phải là văn bản không, nó có đủ dài không, các trường có đầy đủ không và các nhãn có ở định dạng chính xác hay không. Đây là quy trình làm việc quen thuộc với bất kỳ ai có kinh nghiệm đào tạo machine learning. Các đại lý cũng rất quen thuộc với quy trình làm việc này.

Vấn đề nảy sinh ở đây. Nếu Dữ liệu không đầy đủ, tác vụ không thể chạy. Trình xác thực sẽ báo lỗi, cho biết trường bị thiếu, không đủ dài hoặc định dạng không đầy đủ. Để quá trình đào tạo được tiếp tục, Agent sẽ tự hoàn thiện dữ liệu.

Ở góc độ của Đặc vụ, đó không phải là "làm điều ác". Nó chỉ hoàn thành một nhiệm vụ học máy thông thường: sửa chữa dữ liệu, vượt qua xác minh và để tập lệnh đào tạo chạy. Nhưng từ góc độ bảo mật, rủi ro phát sinh vào thời điểm này: Người xác thực giống người chấp nhận kỹ thuật hơn là người đánh giá bảo mật. Nó chỉ kiểm tra xem tác vụ có được hoàn thành theo định dạng hay không và không hiểu ranh giới bảo mật đằng sau nội dung.

Những vấn đề tương tự cũng tồn tại rộng rãi trong các lĩnh vực y học, sinh học, hóa học, an ninh mạng, dược lý và an ninh truyền thông. Bài viết thu thập hơn 50 tình huống như vậy và liên quan đến nhiều công cụ kỹ thuật hoặc nghiên cứu khoa học trong thế giới thực, chẳng hạn như BioPython, RDKit, Cantera, AutoDock Vina, DiffDock, PyRosetta, Scapy, Impacket, angr, Frida, LlamaGuard, Detoxify, OpenAI Moderation API, v.v.

Bản thân những công cụ này không độc hại. Ngược lại, chúng đều là những công cụ chuyên nghiệp thường được sử dụng trong nghiên cứu khoa học hoặc kỹ thuật thực tế. Nhưng vấn đề với TVD là: khi Task bình thường, Tool bình thường, Validator cũng bình thường thì Agent vẫn có thể gặp kết quả đầu ra không an toàn trong quá trình hoàn thiện Data.

Do đó, trọng tâm của ISC không phải là kỹ thuật lời nhắc mà là khả năng Tác nhân tự động hoàn thành "các nhiệm vụ chưa hoàn thành": khi các điều kiện hoàn thành trùng với ranh giới rủi ro, mô hình có thể coi đầu ra không an toàn là một sản phẩm có thể phân phối thông thường.

Đột phá của Fable 5 cho thấy các máy dò mạnh không thể ngăn chặn rủi ro nội bộ trong chuỗi nhiệm vụ

Trường hợp của Fable 5 cho thấy chỉ riêng các máy dò bên ngoài có thể không bao gồm được một số tình huống Tác nhân tầm xa. Điều này không có nghĩa là các bộ phân loại bảo mật không có giá trị. Ngược lại, nó rất hữu ích cho các yêu cầu độc hại từ bên ngoài và khiến nhiều phương pháp bẻ khóa truyền thống trở nên kém hiệu quả.

Tuy nhiên, sự mất mát này cho thấy thực tế là máy dò bên ngoài hoạt động hiệu quả ở ranh giới Nhắc không có nghĩa là nó có thể ngăn chặn các rủi ro nhiệm vụ tầm xa trong Đặc vụ.

Nếu vi phạm không được nhập từ lời nhắc của người dùng mà xuất hiện từ mục tiêu, công cụ, trình xác thực và dấu vết thực thi của Tác nhân thì trình phát hiện bảo mật sẽ trở nên rất dễ bị tấn công.

Từ Fable 5 đến hơn 60 mẫu khác bao gồm cả mẫu di động của Apple

ISC-Bench được phát hành cùng với nghiên cứu bao gồm 9 lĩnh vực chuyên môn. Phiên bản giấy chứa hơn 60 mẫu kích hoạt, đã được mở rộng lên 84 mẫu sau nguồn mở. Đối tượng thử nghiệm bao gồm các mô hình tiên tiến và hệ thống thông minh của hầu hết các nhà sản xuất.

Dựa trên ISC-Bench Tính đến tháng 6 năm 2026, hơn 60 các mô hình tiên tiến đã bộc lộ những rủi ro tương tự theo chỉ báo ASR@3!

Hiện tại, dự án GitHub đã nhận được 800+ sao và đã thu thập được nhiều trường hợp sao chép độc lập (bao gồm cả việc phá vỡ mẫu điện thoại di động Apple) và đang được cập nhật liên tục.

Có thông tin cho rằng nhóm đang tiến hành nghiên cứu bảo mật mô hình tiên tiến quy mô lớn và hiện đã thành thạo việc phân phối dữ liệu không an toàn nội bộ của một số lượng lớn các mô hình. Kết quả nghiên cứu có liên quan sẽ được công bố trong tương lai.

Liên kết gốc

Crack trong 5 giây và chỉ cần 1 cuộc trò chuyện: “Cơ chế bảo mật mạnh nhất” của Claude Fable 5 có bị team Trung Quốc bẻ khóa không?

Đây không phải là cuộc tấn công từ bên ngoài mà là sự vi phạm nội bộ trong chuỗi nhiệm vụ

Hiện tượng này được phát hiện như thế nào?

Tại sao cấu trúc mô tả nhiệm vụ tưởng chừng bình thường lại trở thành một cuộc tấn công?

Đột phá của Fable 5 cho thấy các máy dò mạnh không thể ngăn chặn rủi ro nội bộ trong chuỗi nhiệm vụ

Từ Fable 5 đến hơn 60 mẫu khác bao gồm cả mẫu di động của Apple

Artikel Berkaitan

Ekonomi AS tak terlihat: tangguh atau keren

25 detik untuk menerobos, hanya satu percakapan yang diperlukan: Claude Fable 5 " Mekanisme keamanan terkuat" dipecahkan oleh tim Tiongkok

spaceX baru yang dipotong dalam xStocks bukan meremehkan

Ketopeng ini bernilai triliun dolar kembali: 85%

Produk

Undang-Undang & Sokongan

Pautan Rakan