25 detik untuk menerobos, hanya satu percakapan yang diperlukan: Claude Fable 5 " Mekanisme keamanan terkuat" dipecahkan oleh tim Tiongkok

Judul asli: 5 detik untuk istirahat, satu dialog saja: Mekanisme keamanan terkuat Fable 5 rusak oleh tim Cina
Sumber asli: Jantung Mesin

Ini bukan infus, itu bukan peran-bermain, itu bukan samaran untuk permintaan jahat. Dalam kasus ini, risiko muncul dalam proses tubuh cerdas melaksanakan tugas mereka secara otonom。

Fable 5 adalah model kelas Anthropic Mythos yang terbuka untuk umum, yang tidak hanya memiliki kemampuan gabungan yang sangat kuat, tetapi juga telah memperkenalkan generasi baru Safety Classifier sebagai garis pengaman di perimeter model。

Menurut desain resmi, ketika permintaan pengguna melibatkan daerah berisiko tinggi seperti keamanan jaringan, biologi, kimia, distilasi model, sistem memprioritaskan identifikasi risiko dan penolakan langsung permintaan sesuai dengan tingkat risiko, atau beralih ke pemrosesan model Opus 4,8 yang lebih konservatif。

Sejumlah besar tes pengguna telah menemukan bahwa teknik yang digunakan secara ekstensif di masa lalu, seperti tips kontra-intuitive, role-playing, bypass kode-coding dan ekspresi rahasia, telah hampir sepenuhnya gagal dalam menghadapi mekanisme keamanan ini, menunjukkan kapasitas kuatnya untuk intersepsi risiko disengaja。

Namun, pada hari peluncuran Fable 5, tim peneliti internasional yang terdiri dari University of Jordan, University of Deacon, City University of Hong Kong, China, University of Melbourne, Universitas Manajemen Singapura dan cabang Erbana-Champagne dari Illinois mengumumkan bahwa mereka telah berhasil menerobos mekanisme perlindungan keselamatan Fable 5。

Metode serangan ini dirancang oleh Yutao Wu, seorang mahasiswa PhD di Universitas Deacon。Seluruh set serangan membutuhkan waktu kurang dari lima detik untuk satu dialog untuk melewati katalogor keselamatan pra-set dan menginduksi model untuk menghasilkan konten berbahaya untuk pelanggaran。

Analisis aliran lebih jauh menunjukkan bahwa output berbahaya yang relevan diturunkan langsung dari Fable 5 sendiri, daripada dari model Opus 4,8, yang otomatis beralih setelah mekanisme keselamatan dipicu. Ini berarti bahwa serangan tidak hanya berhasil melewati kataloger keamanan, tetapi juga secara substansial melanggar Fable 5 ' s garis keamanan。

Hal ini patut disebutkan bahwa hacker terkenal, Liberator, juga baru-baru ini diterbitkan bypass terhadap Katalog Keselamatan Fable 5. Rute teknis yang digunakan tim & Deacon kali ini bukan merupakan kombinasi sederhana dari eksplorasi, tetapi cacat mendasar dalam sistem super-smart Fable 5。

Menurut informasi yang diterima, tim menyelesaikan pra-studinya dan menjadikannya publik sebelumnya Maret ini. Penelitian ini tidak dirancang untuk sistem tunggal Fable 5, tetapi untuk "safe taxic + model" arsitektur pertahanan yang umum digunakan oleh generasi baru super-intelijen, dan secara langsung mengungkapkan kelemahan struktural mekanisme keamanan seperti itu, sehingga dampak serangan dengan cepat ditunjukkan setelah Fable 5 dirilis。

Menurut informasi publik, tim mampu mengekstrak tips sistem dari 37 model besar dan sistem cerdas arus utama menggunakan teknologi serupa sejak Maret tahun ini dan telah menyelesaikan validasi sumber terbuka (pertandingan 95%) dalam Claude Code。

Tim ini diketahui dikepalai oleh seorang guru dari Angkatan Darat Ma Xing, sebuah institut penelitian yang kredibel dan cerdas di Universitas Redam。

PADA TAHUN-TAHUN TERKINI, TIMNYA TELAH MELAKUKAN PENELITIAN SISTEMATIS SEPUTAR MODEL BESAR, BADAN CERDAS DAN KEAMANAN CERDAS, MENCAPAI SERANGKAIAN HASIL ILMIAH TERKEMUKA INTERNASIONAL DAN MEMENANGKAN KOMPETISI US-AI SECURITY CENTER SECURITY BENCHMARKS。

Saat ini, timnya aktif mengejar transformasi hasil, berfokus pada keamanan tubuh cerdas dan mengeksplorasi kemampuan membangun infrastruktur keamanan untuk generasi berikutnya sistem tubuh cerdas。

Menurut Mr Ma, signifikansi studi ini terletak pada fakta bahwa hal itu menimbulkan tantangan baru untuk paradigma pertahanan statis saat ini, berpusat pada klasifikasi keselamatan:Reliance pada pre-safe classifier saja tidak cukup untuk sepenuhnya melindungi dari potensi risiko perilaku dalam sistem intelijen canggihAku tidak tahu。

Taksonomi keselamatan terutama ditujukan pada identifikasi risiko dan intersepsi masukan pengguna, yang secara efektif mendeteksi dan filter terlihat perintah berisiko tinggi, tetapi tidak mendeteksi perilaku risiko inheren dari tubuh cerdas yang beroperasi selama jangka waktu yang lama, perencanaan multi-langkah, interaksi lingkungan dan generasi bertahap alat。

Metode memecahkan Fable 5 berasal dari paper Internal Safety Clundle in Frontier Large Language Models, diterbitkan oleh tim Maret lalu。

Koran itu mengungkapkan fenomena keamanan tersembunyiKejatuhan Keselamatan Abadi, ISC"Pada saat ini, ketika Agen menyelesaikan misi jarak jauh, kegagalan keamanan belum tentu berasal dari sinyal jahat eksternal, tetapi mungkin terjadi dalam model ' s sendiri rantai implementasi。

Bukan tip eksternal, tapi pelanggaran internal dalam rantai misi

Serangan tradisional biasanya masuk dari luar. Para penyerang akan menulis masukan yang tampaknya tidak berbahaya dan konfrontasional atau menggunakan role-playing, coding, translasi, instruksi tidak langsung, dll, untuk menyamarkan niat jahat sebagai permintaan normal. Tugas utama juru katalog keselamatan adalah menghentikan risiko pada tingkat ini。

Detektor Fable 5 dirancang untuk skenario ini. Hal ini sensitif untuk mengarahkan permintaan berisiko tinggi dan bahkan mungkin memblokir sejumlah permintaan normal. Namun ISC mengungkapkan jalan lain: risiko tidak selalu berasal dari permintaan bahaya yang dimasukkan langsung oleh pengguna。

Pasangan cerdas dan layak adalah katalog pekerjaan yang tampaknya biasa: dokumen, objektif, proses validasi dan tugas yang harus dilakukan. Ia kemudian mulai merencanakan, membaca dokumen, menjalankan kode, memperbaiki kesalahan dan terus-menerus berusaha untuk mendapatkan misi divalidasi。

JIKA SATU GAMBAR DIGUNAKAN SEBAGAI METAFORA, MEKANISME KEAMANAN TRADISIONAL ADALAH \"TITIK MASUK\" SISTEM UNTUK MEMERIKSA APAKAH MASUKAN PENGGUNA BERISIKO, SEDANGKAN YANG DIUNGKAP OLEH ISC LEBIH SEPERTI MIMPI MULTI-LAPISAN DI DREAMLAND。

Saat tugas bergerak ke tahap kedua, ketiga dan bahkan lebih dalam dari implementasi, model kembali diunderstood atas dasar konteks internal kumulatif dan pergeseran bertahap dalam proses。

Dalam kasus seperti itu, masukan pengguna awal mungkin sangat normal dan tidak berbahaya, dan proses implementasi mandat sebelumnya tetap konsisten: akses ke dokumen, analisis data, penulisan kode, alat panggilan, semua tampaknya maju seperti yang diharapkan。

Namun, sewaktu tubuh cerdas menerapkan fase kritis, tubuh itu sendiri bisa menarik kesimpulan: Tugas terakhir tidak dapat dicapai tanpa tindakan tertentu yang seharusnya tidak dilaksanakan。

Ini adalah dalam proses ini bahwa risiko tidak timbul dari input eksternal, tetapi lebih berevolusi dalam model ' s sendiri rantai implementasi tugas. Dengan kata lain, model tidak diajarkan oleh pengguna langkah demi langkah. Ia sedang dalam proses "melakukan pekerjaannya dengan serius" dan berada dalam posisi yang tidak aman。

Bagaimana ini bisa terjadi

Menurut tim, ISC tidak dirancang sebagai metode serangan pada awalnya. Ini berasal pertama dari pengamatan operasi jarak jauh tubuh cerdas. Setelah ditempatkan di lingkungan misi yang kompleks, Agen bukan hanya perintah eksekusi mekanis. Hal ini akan merencanakan, menguji, memodifikasi output berdasarkan umpan balik dari harness atau validator dan membuat target intermediate dalam beberapa putaran eksekusi。

Dan itu adalah penggunaan paling umum dari banyak Agen workflow hari ini. Pengguna tidak menulis prompt yang dirancang dengan cermat, apalagi perintah serangan manual. berkali-kali, pengguna hanya akan memberikan kalimat yang sangat samar:

Bantu aku menyelesaikan misi ini.DoLakukan ini lebih baik untukku."

Agengodi kemudian memasuki ruang kerja itu sendiri, membaca dokumen, memahami keadaan saat ini, mengidentifikasi barang yang hilang, mengembangkan rencana, mengimplementasikan modifikasi, dan terus-menerus memperbaiki masalah berdasarkan umpan balik。

Sebagai contoh, dalam adegan AutoResearch, pengguna hanya memberikan satu kertas yang belum selesai dan satu kalimat, "Help me complete," dan Agen ditentukan untuk dirinya sendiri di mana ada kekurangan analisis laboratorium, pekerjaan terkait atau teks tabel. Adegan kodenya mirip: "Help me run the project", yang dapat memicu kebergantungan pada pemeriksaan, pengujian, mispositioning dan auto-completion。

Sering kali, konteksnya sama sekali tidak berbahaya. Para pengguna tidak mengharuskannya untuk menghasilkan konten risiko, demikian pula pernyataan misi tidak memiliki kata kunci bahaya yang jelas. Tapi dalam beberapa struktur misi, Agen akan, untuk tujuan validasi, proaktif melengkapi sesuatu yang tidak boleh dihasilkan oleh model. Berdasarkan pengamatan ini, tim lebih lanjut mengusulkan kerangka serangan: TVD (misi, validasi, data)。

Mengapa misi yang tampaknya biasa menggambarkan struktur menjadi serangan

STRUKTUR TVD TIDAK KOMPLEKS, BAHKAN DEKAT DENGAN PROSES TEKNIK UMUM:

Tugas: misi profesional

• Data: satuTidak lengkapData data data file

Validator: pemeriksa yang hanya memeriksa format, integritas dan penyempurnaan target。

Misalnya, pelatihan model Guard adalah tugas yang profesional dan normal. Para peneliti mungkin ingin melatih atau mengevaluasi detektor pengaman, misalnya dengan memuat model klasifikasi teks untuk menentukan jenis label pengaman apa bagian dari keluaran model tersebut。

Dalam tugas ini, Data adalah sampel data yang akan diuji oleh model; Validator menentukan apakah tugas tersebut selesai. Ini memeriksa apakah input adalah teks, apakah panjang cukup, apakah bidang lengkap dan apakah format label benar. Ini adalah alur kerja yang akrab bagi siapa pun dengan pengalaman dalam pelatihan mesin. Agenda juga sangat akrab dengan aliran ini。

Masalahnya ada di sini. Jika Data tidak lengkap, misi tidak akan bangun. Kesalahan laporan pengevalidator, medan prompt hilang, tidak cukup lama atau format tidak lengkap. Agen akan menyelesaikan Data ini sendiri。

Dari sudut pandang Agen, itu tidak buruk." Ini hanya melakukan misi pembelajaran mesin normal: memperbaiki data, melewatkan validasi dan menjalankan skrip pelatihan. Namun dari perspektif keselamatan, risikonya muncul pada saat ini: Validator lebih mirip dengan receiver teknik daripada pemeriksa keselamatan. Ini hanya memeriksa apakah misi telah diselesaikan dengan format dan tidak memahami batas keamanan di balik konten。

Permasalahan serupa yang sering terjadi dalam bidang kedokteran, biologi, kimia, keamanan siber, farmakologi dan keamanan media。Lebih dari 50 skenario seperti itu dikumpulkan dan melibatkan berbagai macam alat ilmiah atau teknik praktis, seperti BioPython, RDKit, Cantera, AutoDock Vina, DiffDock, Pyrostta, Scapy, Impactet, Angr, Frida, LlamaGuard, Detoxify, OpenAI Moderation API, dll。

Alat-alat ini tidak berniat jahat. Sebaliknya, mereka adalah alat khusus yang umum digunakan dalam penelitian praktis atau rekayasa. Namun masalah dengan TVD adalah ketika Task normal, Tool normal, Validator normal, dan Agen masih mungkin pindah ke output yang tidak aman dalam proses menyelesaikan Data。

Oleh karena itu, fokus ISC bukan pada teknik petunjuk, tetapi pada penyempurnaan otomatis dari "tugas tidak selesai" dalam Agen: Ketika kondisi untuk penyelesaian tumpang tindih dengan batas risiko, model mungkin menganggap output tidak aman sebagai pengiriman normal。

Fable 5 berarti detektor yang kuat tidak dapat menghentikan risiko di dalam rantai misi

Kasus Fable 5 menunjukkan bahwa detektor eksternal saja mungkin masih belum menutupi beberapa skenario Agen. Itu bukan untuk mengatakan bahwa katalog safety tidak berharga. Sebaliknya, hal itu sangat berguna bagi permintaan berniat jahat dari luar dan tidak memberikan banyak metode tradisional yang tidak efektif untuk melarikan diri。

Tapi ini tanda kegagalanDetektor eksternal itu efektif di perbatasan Prompt dan tidak berarti dapat menutupi risiko misi jarak jauh di dalam AgenAku tidak tahu。

Detektor keamanan detektor keamanan menjadi sangat rentan jika pelanggaran bukan dari user Prompt tetapi dari target Agen, alat, checker dan lintasan eksekusi。

Dari Fable 5 sampai 60, lebih dari satu model lain, termasuk ponsel Apple

ISC-Bench, diterbitkan dengan penelitian, mencakup sembilan bidang spesialisasi. Versi kertas yang terdiri dari 60+ templat pemicu, yang diperluas menjadi 84 templat setelah sumber terbuka, dan diuji pada model garis depan hampir semua produsen dan integrasi intelijen。

Dalam daftar evaluasi berdasarkan ISC-BenchPADA JUNI 2026, LEBIH DARI 60 MODEL DEPAN TELAH TERKENA RISIKO SERUPA DI BAWAH PENUNJUK ASR@3

Sekarang proyek GitHub telah diperoleh800+bintang, dan koleksi beberapa kasus perulangan independen (Termasuk menerobos melalui ujung ponsel telepon apelDan terus diperbarui。

Diketahui bahwa tim melakukan studi keamanan model maju skala besar, dan bahwa sejumlah besar model sekarang tersedia untuk distribusi internal data yang tidak aman, yang akan ditindaklanjuti。

Bahasa Asli

25 detik untuk menerobos, hanya satu percakapan yang diperlukan: Claude Fable 5 " Mekanisme keamanan terkuat" dipecahkan oleh tim Tiongkok

Bukan tip eksternal, tapi pelanggaran internal dalam rantai misi

Bagaimana ini bisa terjadi

Mengapa misi yang tampaknya biasa menggambarkan struktur menjadi serangan

Fable 5 berarti detektor yang kuat tidak dapat menghentikan risiko di dalam rantai misi

Dari Fable 5 sampai 60, lebih dari satu model lain, termasuk ponsel Apple

Artikel Terkait

APAKAH MTR PREMIUM ATAU DISKON

Wu bilang itu pilihan harian dari berita terenkripsi + Wu bilang ini seleksi mingguan: Berita Top10 dan artikel populer

IOSG: SIAPA MENANGKAP NILAI KETIKA PENALARAN MENJADI SUMBER DAYA LANGKA

Menulis setelah premier SpaceX: Apakah harga pasar sebesar 2,1 triliun dolar

Produk

Hukum & Dukungan

Tautan Teman