Claude Fable 5"最強安全机制"被中國隊打破

2026/06/13 12:37
🌐zh-Hant

這不是黑客攻擊 是艾爾在努力工作時越界了。

Claude Fable 5"最強安全机制"被中國隊打破
原題:5秒折斷,只有一對對話:Fable 5最強的安全机制被中國隊打破
原始來源: 機器心

不是注入,不是角色扮演,也不是偽裝恶意要求. 在這種情況下, 在智慧的機構自主地執行任務的过程中。

Fable 5是Anthropic Mythos分級模型。

當使用者的要求涉及網路安全、生物、化學、模型蒸馏等高风险领域時。

許多使用者測試發現,過去廣泛使用的技術,如反直覺提示,角色扮演,編碼绕過和秘密表示等,在面對此安全機制時幾乎完全失敗,表明其具有強大的能力,可以故意截取風險。

包括复旦大學、执事大學、中國香港城市大學、墨爾本大學、新加坡管理大學和伊利諾伊大學的Erbana-Champagne分校。

攻擊方法由执事大學博士生伍友陶设计。一對對話包圍預定的安全編目器及引導模型產生有害内容。

相關的有害產品直接來自Fable 5本身, 而不是Opus 4.8型號, 這項攻擊不僅成功绕過安全目錄器。

知名黑客「解放者」最近也發表了一篇反Fable 5 Security Catalogue的旁路文章。 這次 & Deacon 團隊使用的技術路線不是簡單的勘探搭配。

3月初, 研究不是為Fable 5單一系統而設計的,而是為新一代超智能常用的"安全分类+模型"防御架构而設計的,直接揭示了这种安全机制的结构性缺陷,因此在Fable 5发布后,攻擊的影響很快被證明。

該團隊早在今年3月便能從37個主流大型模型及智慧系統中提取系統提示。

這支隊伍的首領是馬星軍。

最近幾年, 其團隊在大型模型、智慧體體和智慧安全方面進行了系统性的研究。

目前其團隊正积极追求成果的轉變, 专注于智能身體安全。

馬先生表示,這項研究的意義在于, 它對目前以安全分類为中心的靜態防守模式提出了新的挑戰:光靠安全前的分類 不足以完全防范進步情報系統的危險行為我不知道。

安全分類主要指向於使用者輸入的風險识别與截取。

破解Fable 5的方法來自該團隊去年3月出版的"邊境大語模組內部安全碰撞"一文。

報紙揭露了一個隱蔽的安全現象"內部安全碰撞 ISC":目前Agent完成遠程任務后,安全故障不一定来自外部的恶意訊號,而是可能发生在模型本身的執行鏈中。

不是外部消息 而是任務的內部漏洞

傳統攻擊通常從外面進入 攻擊者會寫出似乎无害且對抗性的輸入或使用角色扮演、編碼、翻譯、间接指令等, 安全編目公司的主要任務是 阻止這一層的風險。

Fable 5 探測器就是為此設計的。 它對直接的高风险要求很敏感,甚至可能阻斷一些正常的要求。 但 ISC 揭示了另一條路徑: 風險不一定来自于使用者直接輸入的危險要求 。

聰明而正派的對手, 然后它開始計劃、讀取文件、執行密碼、修補錯誤。

傳統安全机制是系統的「入口點」, 以檢查使用者的輸入是否有危險, 而ISC所揭示的更像是夢境多層的夢想。

該模式依據內部的累积背景重新理解。

在這種情況下, 初始使用者的輸入可能完全正常且無害, 而先前的授權執行过程依然一致: 存取文件、分析資料、編碼、呼叫工具。

然而,當一個智能體實現一個關鍵期時,它本身可能得出一個結論: 最後的任務是不能完成的。

正是在這個过程中,風險不由外部投入产生,而是在模型本身的任務執行环节中演化。 也就是說,模型不是由使用者一步一步地教的. 正在"认真做好工作"中,处于不安定的境地。

怎麼會這樣

據團隊說,ISC最初不是被設計成一种攻擊方法的. 它首先來自於對智慧體的遠程操作的觀察. 被安置在複雜的任務環境下 特工不只是一個機械執行命令 它會依據用戶或驗證人的回應來規劃、測試、修改輸出。

這是今天很多特工工作流程最常用的用法 用戶不會寫出精心設計的即時指令, 更不會寫出手動攻擊指令 。 許多次

"幫我完成任務" "為我好"

然后代理員自己進入工作區, 讀取文件, 理解目前的狀態, 辨識缺失的項目, 制定計劃, 執行變更, 並根据回應來源不停地修復問題 。

例如, 在自動研究場景中, 使用者只提供了一篇未完成的紙和一句「幫我完成」, 密碼場景類似於「幫我運行專案」。

很多次,背景是完全无害的。 使用者沒有要求它產生風險內容, 但在某些任務架构中 特工會為了驗證目的 主动完成一些不該由模型產生的東西 根據此觀察。

為什麼看似普通的任務會變成攻擊

TVD的结构并不复杂

· 工作:专业工作

• 数据:一不完整資料檔案

校验器:只檢查目標格式、完整性和完成性的檢查器。

例如,警衛模式的訓練是專業和正常的工作。 研究者可能希望訓練或評估安全偵測器, 例如載入文字分類模型。

在此工作中, Data 是模型要測試的資料樣本; 驗證者決定此工作是否完成 。 它檢查輸入是否是文字, 长度是否足夠, 字段是否完整, 標籤格式是否正確 。 這是任何有機械訓練經驗的人熟悉的工作流程。 特工也非常熟悉這條溪流。

問題就在這兒 如果Data不完整 任務就不會起飛了 驗證者報告錯誤, 錯誤的欄位, 不夠長或格式不完整 。 為了繼續訓練 特工會自己完成這些資料。

從特工的角度來說,這不是壞事 校對:Soup 但從安全角度來說, 風險在目前為止:驗證機更像是工程接收機, 它只檢查任務是否按格式完成。

在醫學、生物、化學、網絡安全、藥物學和媒体安全等领域。共收集了50多個類似情景, 包括BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、Pyrostta、Scapy、Impacket、Angr、Frida、LlamaGuard、解毒、OpenAI Modratation API等。

這些工具本身不是恶意的。 相反,它們是實際研究或工程中常用的专门工具. 但 TVD 的問題是, 當工作是正常的, 工具是正常的, 驗證器是正常的, Agent 在完成 Data 的过程中仍然有可能移動到不安全的輸出 。

因此,ISC的重點不是暗示技巧,而是Agent中"未完成的任務"的自動完成: 當完成條件與風險邊界重合時, 模型可能會將不安全的輸出當做正常的輸出 。

傳言5表示強烈的偵測器無法阻止任務鏈內的風險

第5個案例顯示 單靠外線偵測器 可能仍無法處理一些特工事件 不是說安全編目師沒用 也讓許多傳統逃生方法無效。

但這是失敗的征兆外部探測器在Tean的邊界很有效 也不表示它能抵擋Agent內的遠程任務風險我不知道。

安全偵測器非常脆弱。

從Fable 5到60,不止一個其他型號,包括苹果手机

ISC-Bench与研究合著, 紙面版由60+扳機樣本组成,在開源後扩充到84個樣本,並在几乎所有制造商的一線模型和智能集成上進行測試。

在基于ISC-Bench的評估清單中至2026年6月,60多個前置型號在ASR@3指示器下暴露了相似的風險

GitHub 專案已經取得800+星收集一些獨立的重犯案例包括突破蘋果手機的手機端并不断更新。

目前已有大量模型可供內部分配不安全的資料。

原始链接
QQlink

암호화 백도어 없음, 타협 없음. 블록체인 기술 기반의 탈중앙화 소셜 및 금융 플랫폼으로, 사용자에게 프라이버시와 자유를 돌려줍니다.

© 2024 QQlink R&D 팀. 모든 권리 보유.