成全动漫在线观看免费观看国语-成全视频高清免费观看捉妖记动漫-成全影视在线观看更新时间-成全在线观看免费完整版电影高清

網站首頁 | 網站地圖

每日推薦
首頁 > 理論 > 正文

“養龍蝦熱”的智能體安全隱憂

【摘要】當前,以OpenClaw為代表的開源人工智能體正加速在全球范圍普及,推動人機交互從“工具使用”向“代理委托”轉變。這類開源人工智能體具備自主學習、工具調用與自我進化能力,為發展數字經濟注入強勁動力,但其開放式供應鏈架構也帶來前所未有的安全挑戰,安全風險表現出要素更多、攻擊面更廣、影響鏈條更長、檢測難度更大等新特征。為此,亟需構建涵蓋技術、制度、生態、能力等要素的綜合治理框架,以技術手段筑牢安全基礎,以制度規范明確行為邊界,以生態共治凝聚多方合力,以能力建設夯實長遠根基,在保障技術創新活力的同時有效防控安全風險。

【關鍵詞】開源人工智能體 供應鏈安全 人工智能治理 技能生態 【中圖分類號】TP309 【文獻標識碼】A

隨著開源人工智能體OpenClaw(昵稱“龍蝦”)在全球范圍內的爆火,相關安全風險也逐步顯現。從個人隱私泄露到關鍵基礎設施癱瘓,從應用程序編程接口(API)密鑰被盜到金融交易誤操作,安全問題已上升為涉及數據主權與公民隱私的系統性治理命題。2023年8月施行的《生成式人工智能服務管理暫行辦法》明確生成式人工智能服務的安全評估與備案要求。①2025年9月發布的《人工智能安全治理框架》2.0版,進一步細化人工智能安全風險分類。②《中華人民共和國國民經濟和社會發展第十五個五年規劃綱要》提出:“推進開源體系建設,完善開源運行機制。”③在此背景下,深入研判開源人工智能體的安全風險,探索適配于技術發展的安全治理框架與路徑,既是落實國家安全戰略的現實需要,又是推動人工智能產業高質量發展的內在要求。

開源人工智能體的技術演進

人工智能的發展歷程可以被理解為一部機器“主體性”不斷增強的演進史。早期的專家系統依賴人工編寫的規則運行,智能體不能完成規則之外的動作;統計學習時代的機器學習模型雖具備從數據中自動提取模式的能力,但其應用局限于特定任務的被動預測;大語言模型的出現使人工智能獲得通用的語言理解和生成能力,但在實際應用中仍扮演“問答助手”角色。大語言模型雖有著強大的思考與生成能力,但操控工具與執行能力有限,只是實現了人類“大腦”功能。“龍蝦”智能體則在大語言模型基礎上配置各種工具與記憶系統,使其能夠自主感知環境、規劃推理、創造與使用工具、組織記憶并根據執行反饋自主動態調整策略。

以OpenClaw為例,用戶只需提出一個高層目標,智能體便會自主分解任務、調用郵件客戶端和文檔編輯器、完成信息檢索與文本生成,最終交付結果。在這一過程中,智能體需獨立完成目標理解、任務規劃、工具選擇、執行監控和錯誤嘗試等一系列復雜的認知活動。這種從工具使用到任務委托的轉變,意味著人類只需提出目標要求而不必再關心執行過程細節。人機關系由此進入一個全新的“委托—代理”階段。

智能體不再局限于被動執行指令,而是具備自我進化的能力。傳統軟件的行為模式在開發完成后基本固定,其功能更新依賴于開發者的主動迭代;而自進化智能體則能夠在運行過程中持續積累經驗、學習新技能、優化行為策略,其能力邊界隨時間推移不斷擴展。

以筆者團隊研發的類似的自進化智能體Generic Agent為例,該框架支持智能體在執行任務過程中自主學習新技能,并將成功操作經驗沉淀至技能庫中,供后續調用。同時,筆者團隊為Generic Agent配套的技能庫已積累超過140萬種技能,涵蓋文檔處理、數據分析、網絡操作等廣泛功能。這種邊用邊學的自我進化機制,一方面賦予智能體前所未有的靈活性和適應性,甚至可以組合創新出全新復雜技能;另一方面也意味著智能體的演進軌跡越來越難以被完全預測和控制。

開源人工智能體供應鏈安全的多維風險

傳統軟件安全主要關注代碼和依賴包中的已知漏洞和惡意組件注入,其風險邊界相對清晰、攻擊模式相對固定。開源人工智能體的安全則呈現出風險要素更多、攻擊面更廣、影響鏈條更長、檢測難度更大等新特征。從縱向看,風險貫穿模型層、框架層、技能生態層和運行交互層;從橫向看,每一層次的安全缺陷都可能通過智能體的自主決策機制被放大為系統性風險。

模型層和框架層風險:幻覺輸出與隱私暴露。開源人工智能體的核心驅動力來自基礎大語言模型。當前,主流智能體系統多采用云端大模型應用程序編程接口(API)作為推理引擎的接入方式,這意味著用戶的指令、上下文信息乃至敏感數據,都要傳輸至云端進行處理。在智能體應用場景中,這些數據的敏感程度遠超普通的對話交互。智能體可能需要訪問用戶的郵件內容、銀行賬戶信息、工作文檔、通訊錄等高度私密的數據來完成被委托的任務。數據在傳輸和云端處理過程中面臨的被截獲、替換和濫用風險,由此造成開源人工智能體供應鏈安全的第一道隱患。

更深層的挑戰,在于大模型固有的“幻覺”問題。在傳統對話場景中,模型幻覺的后果通常局限于信息誤導;在智能體應用場景中,模型的錯誤輸出將直接轉化為錯誤的執行行為。當智能體基于幻覺生成的判斷去操作文件系統、發送郵件或執行金融交易時,可能會導致重要文件被誤刪、機密郵件被錯誤轉發、不當的資金操作被執行。從信息偏差到行為失控的風險升級,是智能體安全區別于傳統人工智能安全的核心特征之一。此外,大模型是概率模型,其輸出在理論上是不確定的,這對于輸出確定性要求較高的嚴肅應用場景也是難以接受的。

技能生態層風險:供應鏈污染的隱蔽滲透。首先,智能體技能插件的惡意行為更加隱蔽。傳統惡意軟件包通常通過利用代碼層面的漏洞或后門植入實施攻擊,安全工具可以通過靜態代碼分析和已知特征匹配進行檢測。而智能體惡意插件則可以“語義級”攻擊手段,通過在技能描述或提示詞模板中嵌入精心設計的指令,劫持智能體的決策邏輯,暗中進行攻擊。這類攻擊超出傳統意義上的漏洞檢測范圍,難以被現有自動化安全掃描工具檢測到。其次,智能體技能的審核與質控機制尚在建設之中,技能平臺相關審核與質檢體系仍有待完善,技能插件的質量也存在一定差異。再次,技能生態的網絡效應一定程度上會放大污染風險。當一個惡意技能被大量用戶安裝后,攻擊者便獲得一個規?;墓羧肟?。更危險的是,智能體的自我進化機制,可能將惡意技能的行為模式學習并內化到自身的決策邏輯中,即使后續卸載惡意技能插件,影響也可能持續存在。

根據國家網絡與信息安全信息通報中心通報,針對ClawHub(專為OpenClaw用戶設計的市場平臺)的3016個技能插件分析發現,其中,336個技能插件包含惡意代碼,占比高達10.8%;17.7%的技能插件會獲取不可信第三方內容;2.9%的技能插件會在運行時從外部端點動態獲取執行內容,攻擊者可遠程修改智能體執行邏輯。④惡意插件的行為模式包括但不限于:在正常功能之外暗中收集用戶敏感數據并回傳至外部服務器、通過提示詞注入劫持智能體的行為邏輯使其執行非預期操作、利用智能體的系統權限在用戶設備上安裝持久化后門程序。

運行交互層風險:自主進化與權限逃逸的疊加效應。智能體的自我進化能力對權限管理提出嚴峻挑戰。一方面,持續學習和經驗積累,是智能體提升服務質量的核心機制;另一方面,長期運行的自進化智能體,可能逐漸偏離初始設定的行為邊界,產生開發者和用戶都未曾預期的行為模式。

智能體的記憶系統是這一風險的重要載體。為了提供個性化服務,智能體會持續記錄和分析用戶的行為習慣、偏好特征、社交關系乃至敏感信息,逐步構建起詳細的用戶畫像。這些記憶數據如果以未加密的文件形式存儲在用戶本地設備上,那么在設備被入侵或記憶文件被惡意訪問時,攻擊者將獲得更為全面和深入的用戶信息,進而偽造“數字分身”實施身份冒用。

權限逃逸是運行交互層面臨的另一個嚴峻挑戰。當前,智能體系統主要通過兩種機制約束其行為邊界:一是系統提示詞(system prompt),通過自然語言指令規定智能體的角色定位和行為規范;二是“憲法”規則(constitutional rules),設定智能體不可逾越的行為紅線。安全研究表明,這兩種基于自然語言的軟性約束,都可以通過精心設計的攻擊手段被突破。提示詞注入攻擊(prompt injection)通過在用戶輸入或外部數據中嵌入惡意指令,誘導智能體忽略或覆蓋其系統提示詞中的安全約束。攻擊者也可以通過構造特定的對話場景,逐步引導智能體放松其行為限制。一旦智能體突破權限邊界,其擁有的文件讀寫、郵件發送、代碼執行等系統級操作能力,將使攻擊者獲得遠超傳統惡意軟件的破壞力。

制度規范層風險:技術迭代與監管節奏的結構性錯位。當前,我國已初步建立包括《生成式人工智能服務管理暫行辦法》《人工智能安全治理框架》等在內的人工智能安全治理制度框架,為人工智能安全治理奠定重要基礎。但現有制度體系主要針對生成式人工智能服務和大模型本身,對于智能體這一新興應用形態的特殊安全風險,尚缺乏針對性的規范指引。

值得注意的是,技術迭代速度往往超出監管響應速度。開源人工智能體的技術演進以周為單位迭代,新的框架、插件和能力模塊持續涌現,而制度規范的制定和修訂周期通常以年月為單位。此外,開源人工智能體的跨境流通特性,也對屬地化監管模式提出挑戰。一個在海外開發的開源人工智能體框架,可以在全球范圍內被自由下載、部署和使用,其技能市場中的插件開發者可能分布在不同國家和地區,這種去中心化的全球分布特征,使得單一國家的屬地監管難以有效覆蓋全部風險節點。

構建開源人工智能體安全風險綜合治理體系

應對開源人工智能體安全風險所帶來的多維挑戰,要構建涉及技術、制度、生態、能力等要素在內的全方位綜合治理框架:以技術手段筑牢安全基礎,以制度規范明確行為邊界,以生態共治凝聚多方合力,以能力建設夯實長遠根基,在保障技術創新活力的同時有效防控安全風險。

筑牢技術防線。在模型層面,大力推動基礎大模型的安全對齊研究,尤其是針對智能體應用場景,提升可靠性和可控性。大模型的幻覺問題,在智能體應用場景中可能引發不可逆的行為后果,需構建面向行為執行場景的模型安全評估體系和專項測試基準。鼓勵發展本地化部署的輕量級模型方案,縮小敏感數據向云端傳輸的安全暴露面。隨著端側大模型技術的快速進步,在用戶本地設備上運行推理引擎正在成為可行的技術路徑。

在框架層面,推廣“最小權限原則”的工程實踐,要求智能體框架在操作系統層面實施嚴格的沙箱隔離機制。具體而言,智能體的文件訪問、網絡通信、進程調用等系統權限應被限定在完成當前任務所必需的最小范圍內,且每次權限申請都應經過用戶的明確授權。同時,鼓勵簡潔代碼與精簡架構。架構的簡潔性本身就是一種重要的安全保障,更少的代碼意味著更少的潛在漏洞和更高的可審計性。

在技能生態層面,建立多層次的技能插件安全審計機制。第一層是自動化的靜態代碼分析,檢測已知的惡意代碼模式和安全漏洞;第二層是動態行為監測,在沙箱環境中運行技能插件并監控其實際行為,識別隱蔽的數據外傳和權限提升操作;第三層是社區信譽評分系統,基于開發者歷史記錄、用戶反饋和同行評審等多維信號,評估技能插件的可信度。三層機制相互補充,從源頭遏制供應鏈污染。

在數據層面,強制要求智能體的記憶數據和用戶畫像信息采用加密存儲,并賦予用戶對記憶數據的完全控制權。用戶能夠隨時查看智能體記憶信息、修改不準確的記憶內容、刪除不希望被保留的敏感數據。此外,要建立記憶數據的生命周期管理機制,對超過一定時限的記憶數據自動進行脫敏處理或安全銷毀,防止長期積累的用戶畫像數據成為攻擊者的高價值目標。

完善制度規范。制定專門的人工智能體安全管理規范?,F行的《生成式人工智能服務管理暫行辦法》主要規制的是,人工智能服務提供者與用戶之間的關系,而智能體的安全治理還涉及智能體開發者、技能插件開發者、平臺運營者和終端用戶等多方主體。要通過專門的規范性文件,明確各方主體的安全責任邊界,尤其是明確智能體造成損害時的責任分配規則。

建立智能體技能市場的準入審查制度。參照移動應用商店的審核模式,要求技能插件在上架前通過安全檢測,并建立惡意插件的快速下架和開發者追溯機制。對于涉及文件系統訪問、網絡通信、支付操作等敏感權限的技能插件,實施更為嚴格的審查標準和持續監測要求。

完善智能體決策與行為的透明性及可追溯性要求。規定智能體系統必須保留完整的決策日志和操作記錄,包括每一次模型調用的輸入輸出、每一次工具使用的參數和結果、每一次權限申請和授權的詳細信息。這些日志記錄不僅是安全事件發生后進行事故調查和責任界定的必要依據,而且是智能體行為審計和合規檢查的基礎數據。

探索建立智能體安全等級分類制度。根據智能體的權限范圍、應用場景和潛在風險等級,將智能體劃分為不同的安全等級,實施差異化監管。例如,僅具備文本生成能力的輕量級智能體,可以適用較為寬松的監管標準,而擁有系統級操作權限的全功能智能體,則應滿足更為嚴格的安全認證要求。

推動生態共治。建立多方參與的測評體系,搭建風險評估平臺,通過普遍接受和認可的方式測評新一代人工智能,完善標準體系,建立容錯機制,在協同互動中避免安全漏洞和風險。⑤政府要發揮規則制定和底線監管的主導作用,通過制定安全標準、建立審查機制、實施執法監督等手段,為智能體生態的健康發展劃定安全底線。同時,注重監管方式的靈活性和適應性,避免過于剛性的管制措施抑制技術創新活力。有的地方政府已開始探索人工智能體安全治理的先行先試路徑,如廣東省標準化協會推出團體標準《智能體任務執行安全要求》,為全國性制度建設積累了寶貴經驗。

學術界要加強智能體安全的基礎研究,為治理實踐提供理論支撐和技術儲備。當前,智能體安全研究仍處于起步階段,在提示詞注入防御、智能體行為評估、技能插件惡意行為檢測等方向上,面臨大量亟待突破的科學問題。高校和科研機構要加大在這些方向上的研究投入,培育智能體安全領域的核心技術能力。

企業和開源社區要承擔起智能體的主體責任。智能體框架的開發者可以在產品設計階段就將安全性作為核心考量,遵循“安全設計”原則。技能市場的運營者要建立健全內部安全審計流程,投入必要資源進行持續的安全監測。開源社區可以建立安全漏洞的協調披露機制,鼓勵安全研究人員報告發現的安全問題。

此外,鑒于開源人工智能體的國際化特征,應積極參與國際人工智能安全治理對話與合作。在開源社區治理規范、跨境數據流動規則、安全漏洞信息共享等領域,推動建立國際協調機制,既維護國家安全利益,又促進全球人工智能生態的健康發展。

強化能力建設。人工智能體安全治理是一個高度交叉的領域,既需深厚的計算機科學和信息安全技術功底,又需對法律、倫理、公共管理和社會治理的深刻理解。要加快培養兼具技術素養和治理能力的復合型人才,在高校的計算機科學、網絡安全、公共管理等專業中增設智能體安全相關課程,鼓勵跨學科研究團隊的組建和協作。

加強面向公眾的人工智能安全素養教育。“養龍蝦”熱潮的參與者中,相當一部分是缺乏專業技術背景的普通用戶,他們對智能體的能力邊界、潛在風險和安全防護措施缺乏充分認知。要通過多種渠道和形式,幫助公眾理解智能體的工作原理和安全風險,掌握基本的安全防護技能,如權限管理、數據備份、異常行為識別等,提升全社會的人工智能安全意識。

開源人工智能體的興起,意味著人機協作正從“人類使用工具”邁向“人類委托代理”,這一轉變蘊含著巨大的生產力釋放潛能,也潛藏著日益突出的安全風險。唯有堅持統籌發展和安全的戰略思維,以技術創新驅動安全能力提升,以制度建設保障安全底線,以生態共治凝聚治理合力,以能力建設夯實長遠根基,我國在全球人工智能體競爭中才能既搶占技術制高點,又守住安全基本盤,為以中國式現代化全面推進中華民族偉大復興提供堅實的智能化支撐。

【注釋】

①《生成式人工智能服務管理暫行辦法》,中國網信網,2023年7月13日。

②《<人工智能安全治理框架>2.0版發布》,中國網信網,2025年9月15日。

③《中華人民共和國國民經濟和社會發展第十五個五年規劃綱要》,《人民日報》,2026年3月14日。

④《國家網絡安全通報中心發布OpenClaw安全風險預警》,央視網,2026年3月13日。

⑤梁正:《新興技術視域下的人工智能善治——發展現狀、風險挑戰與治理思路》,《人民論壇·學術前沿》,2024年第14期。

責編/靳佳 美編/王夢雅

聲明:本文為人民論壇雜志社原創內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。

[責任編輯:孫垚]