摘 要:隨著人工智能的廣泛應用,數據安全問題在系統運行和多主體協作過程中集中顯現。從人工智能系統的運行特征可以看出,關鍵數據安全風險不再穩定附著于可識別的具體數據對象,使得傳統的剛性規制要求難以有效定位風險;以事前預防邏輯為核心的階段性合規控制,難以覆蓋人工智能系統在持續運行和迭代過程中逐步顯現的風險累加;在多主體協作運行框架下,不同主體控制能力與責任配置不對等,削弱了責任認定和規則約束的實際效力。亟須從靜態、分段式控制轉向貫穿系統運行全過程的動態治理,在強化數據使用可追溯性和持續監督能力的同時,重構多主體參與條件下的責任與信任機制,不斷提升數據安全治理在人工智能環境中的現實適配性。
關鍵詞:人工智能 數據安全風險 數據治理
【中圖分類號】TP309 【文獻標識碼】A
習近平總書記強調,當前人工智能、大數據等新技術新應用不斷涌現,給網絡生態治理帶來挑戰,也提供新的支持條件。要完善分級分類的安全監管機制,筑牢網絡安全和數據安全防線。[1]這為應對技術快速發展中的治理與安全協同工作指明方向。生成式人工智能和大語言模型密集涌現,正在以持續而深刻的方式突破既有邊界,從文本生成延伸至代碼構造、圖像創作與決策輔助等復雜任務,推動人工智能從單純的技術組件,上升為支撐社會運行的基礎設施。在釋放數字生產力潛能的同時,這一趨勢也顯著放大了對大規模、高質量數據的依賴,數據資源在人工智能系統中的作用方式呈現出高度復雜化的特征。海量數據和復雜算法相結合,會導致算法決策的黑箱性,也使得潛在安全風險影響決策的科學性。從開放人工智能(OpenAI)、微軟(Microsoft)等多家平臺相繼報道因組件缺陷、權限濫用導致的信息泄露事件可以看出,人工智能運行與數據治理邊界之間的矛盾正在持續顯化。在這一背景下,探討人工智能環境中數據安全治理的挑戰、癥結與對策,對促進負責任的人工智能發展具有重要意義。
近年來,學界圍繞人工智能環境下的數據安全問題,從風險類型、風險成因和治理路徑等方面展開了較為系統的討論。數據安全事件會對個人隱私、經濟發展、政治穩定和國家利益造成不同程度損害[2]。在風險類型層面,人工智能環境下的數據安全風險已貫穿數據采集、存儲、標注、模型訓練、系統運行以及生成內容再利用等多個環節[3],包括數據泄露、數據偏差、“數據投毒”、深度偽造、模型竊取等安全風險,并由此引發個人隱私侵犯、信息質量低下、虛假信息傳播和算法偏見歧視等影響社會穩定運行的治理問題。在風險成因層面,相關研究主要從人工智能的技術缺陷和數據治理制度供給不足兩個維度展開分析。在技術維度上,人工智能系統的數據驅動性、算法黑箱性和持續迭代機制,使數據缺陷和偏差極易在模型中被固化和放大[4];在制度維度上,現有制度在規則供給、程序設計和責任配置上仍以傳統的靜態、分段式治理為主[5],疊加多主體參與下的利益復雜性[6],削弱治理措施的實際效力。在應對方面,學界普遍主張通過法律規范、技術手段與多主體協同的綜合治理方式,加強對全生命周期的持續管理,并且引入風險評估、審計與標準等治理工具,提升數據安全治理對人工智能復雜運行場景的適應性和可執行性。
風險表征
隨著生成式人工智能技術加速嵌入經濟與社會活動,數據成為智能系統運行不可或缺的基礎條件。算法與模型訓練需要對多來源數據進行篩選與重組,系統推理在應用場景中持續調用和更新數據,人工智能與數據之間因而形成緊密交織的“共生”結構與耦合性風險。例如,數據采集與應用端的數據合規風險、數據處理端的隱私安全與算法公平風險、數據存儲端的內外部數據泄露與侵害風險等。在帶來效率提升和系統擴展的同時,這種結構也使得數據安全問題呈現出新的實踐情境。對此,有必要回到數據在人工智能系統中的準入條件、運行過程和主體關系階段,重新審視當前情境下數據安全風險的表現形態。
數據來源與使用邊界不清晰。人工智能系統的有效運行,需要持續獲取和使用大量數據。模型訓練數據、推理輸入數據與業務場景數據在算法內部匯合,不僅具有規模巨大、類型豐富、動態多變、關聯復雜、價值密度迥異以及敏感性強等特點,其權屬狀態與授權運營也存在諸多不確定性。數據提供者、模型開發者與系統運營者之間數據權利邊界不明晰,既有的數據記錄方式難以實現對授權信息的貫通呈現,導致數據使用邊界缺乏連貫一致的識別條件。多源數據在進入系統之前通常經歷脫敏、篩選與結構化處理,附著其上的來源說明和用途限制在跨主體流動中被不斷簡化與再編碼,因此合法授權與實際用途之間的對應關系趨向模糊,有的企業可能利用邊界模糊規避合規責任。
隱私泄漏風險識別更加隱秘。2023年,深度思維(DeepMind)研究團隊利用分歧攻擊等方法,發現利用ChatGPT的數據泄露漏洞可提取出大約1GB的訓練數據,其中不乏個人信息、代碼等敏感數據。在訓練與推理過程中,模型持續牽引不同來源數據開展關聯分析,大量數據轉化為特征與參數后進入到中間表示層,又可通過算法推斷在系統輸出環節重新指向主體身份、軌跡等敏感屬性。傳統基于固定規則、以訪問權限控制為核心的隱私保護方式,難以覆蓋人工智能環境下過多規則匹配、惡意軟件攻擊等引發的連鎖風險,極易導致未知威脅無法檢測。
數據最小化原則難以落地。在人工智能應用中,數據銷毀面臨銷毀技術漏洞、殘留數據恢復等現實風險,數據通常被長期保留并反復使用,以支持模型優化、性能評估或新的預測任務。一旦數據被納入模型訓練或分析流程,往往被用于多種分析和預測任務。當使用邊界不清晰時,難以準確判斷數據是否仍處于合理用途范圍,大量的數據被用于畫像、分類、評估而未被明確告知用途,隱含的數據濫用風險陡增。
合規判斷的不確定性顯著增加?,F行制度將“告知同意”作為個人信息處理的基本條件預設,大模型訓練數據具有規?;c匿名化要求,導致這一預設難以形成穩定的操作條件,難免出現罔顧用戶權益的過度收集和使用。一方面,數據來源與授權范圍的審查無法在早期環節完成;另一方面,模型在運行中不斷改變數據的參與方式,導致在面對具體場景時缺乏統一的合規判斷與處置依據。此外,數據共享協議中模糊、寬泛的條款措辭客觀上也會放大數據合規風險。
數據使用過程難以控制。在實際的人工智能業務場景中,數據一旦被納入算法訓練和系統運行,就不再局限于某項具體處理行為。數據對系統輸出的影響可能在較長時間內持續存在,并在不同應用場景中反復呈現。在傳統數據使用過程中,原本線性連續、層次分明的建制化操作環境,在復雜多變的不確定環境下已發生根本改變。數據流通中的適用條件、對象、主體,以及影響范圍與終止時機等要素難以被持續監控和準確控制,進而擴大數據暴露面、加劇技術脆弱性,并加深數據倫理危機。
算法黑箱與透明度瓶頸難以根治。盡管各國的人工智能監管都強調算法治理和透明度、可解釋性,歐盟因X平臺(原Twitter)廣告庫數據不透明等問題對其處以1.2億歐元罰單,但由于算法透明可能泄露商業機密、可解釋AI(XAI)技術成本偏高等原因,導致其具體實施阻力重重。模型訓練和推理過程中,數據常以特征抽取、權重調整等方式參與計算,具體處理路徑無法以直觀、可讀形式呈現。這種不可解釋性,限制對數據如何影響輸出的清晰說明,也阻礙對算法運行機制的追溯和責任劃分[7]。一旦引發爭議或風險,數據使用者無法確切說明數據所發揮的作用,數據提供者和受影響主體也難以理解數據為何會產生特定結果。
數據狀態不可驗證加劇數據流轉失序。納入模型訓練或運行系統的數據,往往以參數、特征或中間變量形式持續存在,是否仍在對模型輸出產生影響,難以通過直觀方式加以確認。在持續運行和多次迭代情形下,這一問題格外突出。由于數據使用狀態多變,既有合規承諾和風險控制措施難以被有效檢驗,數據安全問題可能在系統中持續存在,卻缺乏有效地發現和糾正依據。有研究嘗試用清單化編目把模型組件、訓練數據來源與授權信息,整理為可核對的記錄,以便在爭議出現時能夠追溯責任鏈條。但由于組件來源和授權信息難以整體貫通,這一做法在人工智能系統中仍舊很難形成穩定效果。
數據質量游離于監管邊緣。人工智能技術追求高精度、法律要求可解釋、倫理對透明與公正的需要,分別從內容顆粒度、過程合規以及倫理規制的不同角度,對數據質量監管提出更高要求。但在現實中,數據清洗不足、標準化不充分、來源單一缺乏代表性等質量問題,非但不能及時修改,還會在模型運行中形成監管盲區,甚至被進一步放大。在模型優化和性能調整過程中,無質量保障的“數據沼澤”會降低業務系統的穩定性和準確率,使數據質量問題從局部風險逐步上升為社會性后果。據相關機構披露,超過80%的機器學習模型容易受到“數據投毒”攻擊[8],通過惡意污染訓練數據集來破壞模型決策邏輯與輸出可靠性,已經成為當前人工智能系統面臨的一個典型數據安全攻擊場景[9]。
數據倫理約束易陷入虛置困境。2018年,第40屆數據保護與隱私專員國際大會(ICDPPC)發布的《人工智能倫理與數據保護宣言》指出,人工智能的發展使得隱私權和數據保護權正受到越來越多的挑戰,應在道德和人權層面彌補。但在實踐中,一方面,數據“公平”“透明”等原則難以量化,錯誤信息和數據操縱等引發的人工智能操縱,已影響人類的認知、成為偏見的來源,并干擾自主性決策,數據偏好與認知偏見、算法歧視等進一步削弱公眾對人工智能應用的信任基礎。另一方面,實驗發現,當使用禮貌和情感化的提示詞時,生成式人工智能語言模型更傾向于生成虛假信息。囿于數據真實性不足、多樣性缺失、公正性弱化等因素制約,模型訓練結果與人類認知的語義理解、邏輯推演易發生偏離。同時,人工智能應用需要進行大規模數據采集與中心化集聚,這必然導致數據集中,從而削弱個人對數據的掌控力,并對個人數據權形成隱性抑制。
數據安全的責任認定無法厘清。人工智能應用涉及數據生產、內容提供、技術開發、系統運營與具體使用等多個環節,數據安全風險的產生與擴散由此分散于不同階段的多個主體之間。當涉及技術提供者、技術使用者、智能體復雜交互所導致的“權責黑箱”時[10],技術的發展往往使相關主體的職責邊界趨于模糊,傳統以單一數據處理者為中心的責任認定方式,難以覆蓋完整的運行過程,導致實踐中的數據安全責任認定存在事實上的不公平性與不確定性。
責任難以追溯。大模型、智能體的應用需要數據生成者、加工者、提供者以及技術支持者等多主體共同參與數據處理,加之多主體功能的交織嵌套以及“技術與服務”的分離使得數據安全風險難以直接量化到具象化的責任主體。當隱私侵害、數據濫用等危害發生時,現實中很難準確判斷問題究竟源自訓練數據采集、數據處理、模型訓練,還是應用部署的具體階段和個人。同時,風險后果與責任主體之間對應關系的錯位也會進一步加劇責任認定的困難。例如,用戶對大語言模型提問的過程也是數據交互過程,如將內容生產者責任完全限定在服務提供者則明顯不合理。
協同生態不足。人工智能環境下的數據安全是一個涉及多樣主體和多方資源協同互動的過程,單一主體無法應對技術、應用和衍生風險的復雜性。無論算法模型安全、數據全生命周期安全,還是硬件設備等技術安全,都需要數據科學家、算法工程師、產品經理、測試工程師、運維工程師以及云服務團隊等不同專業背景和職責人員間的緊密協作。由于責任邊界模糊、技術碎片化部署、標準差異、工作節奏和利益訴求不一,導致數據安全治理仍處于“各自為戰”局面。同時,從模型研發到應用的每個環節都需要“安全承諾書”,但技術不兼容與標準不統一,導致部門間數據安全治理相互脫節,可信協同生態缺失。
內在癥結
在人工智能環境下,數據安全已由靜態、單一處理單元模式,嵌入到跨階段貫通的復雜鏈式結構中。一方面,模型訓練、運行與應用部署均需要對不同版本的數據、代碼、參數和模型性能進行系統的數據運維和模型運維,算法缺陷、組件漏洞等技術脆弱性以及數據來源、質量等管理問題的相互交織,增加數據安全治理的復雜性,改變數據風險的運行軌跡和擴散路徑。另一方面,現行數據治理長期形成的規范體系,以權屬識別、主體授權和目的限定為基礎所形成的合規判斷,強調用途透明、風險分級和協作問責,但模型系統的規模擴張與接口復用,使得這些方法的作用條件與運行空間發生變化,合規判斷與技術迭代、業務流程之間存在一定張力,進而形成新的治理癥結。
數據動態流轉與規制要求剛性的沖突。人工智能條件下的數據處理呈現出模型化與過程化取向,系統通過對海量數據的集中吸納與內部轉譯,將其重組為穩定的知識與參數結構,并在持續的推理輸出中作用于現實場景。既有治理方式通常以數據來源核查、使用目的限定以及對具體處理行為的責任歸屬為核心,對數據活動的合法性進行判別,并假定風險后果能夠被定位到特定數據項與特定環節。然而,模型系統把數據轉化為跨版本共享的內部表示,風險不再完全對應單次操作,而是在不同時間與不同場景中反復迭代,由此導致治理抓手與技術流程之間出現結構性脫節,合規進程難以與智能系統的演進速度保持一致。一是數據信息流轉的連續性增強。原始數據在模型中經過數據預處理、特征工程、特征選擇等轉換為模型算法后,數據風險并不隨單次處理的結束而消失,而是在后續推理和部署中反復體現,并在模型、基礎設施與場景的錯綜交織中形成新的裂變組合。二是黑箱輸出的外溢性疊加。模型推理過程缺乏可被直觀讀取的路徑,治理部門難以僅依賴訪問記錄與來源核查,證明數據污染、敏感信息殘留等數據威脅已經消除,數據安全風險的適用條件與發生機理隨之改變。三是跨場景調用的遷移性激增。數據安全風險在跨場景調用中具有彌散性,同一份數據或其模型特征在不同應用場景中的再次使用,會把早期風險帶入新的空間并產生連鎖后果。由此可見,既有以識別數據對象和處理行為為核心的安全規制方式,在人工智能環境下面臨著適用基礎與重心偏移的問題,制度端強調身份認證、流程合規、責任可溯,技術端強調模型性能最優、版本迭代與響應敏捷,兩者間的張力,本質上是數據安全治理所依賴的“人治流程”與模型“自治系統”的沖突。
合規管理階段性與系統應用迭代性的矛盾。隨著新的數據接入和業務功能的增加,人工智能系統的訪問權限管理以及數據分級分類等合規控制環境也在發生改變。一方面,預訓練、監督微調等環節會重新塑造數據的價值組合與表現形態,使既有基于靜態分級分類的安全策略難以保持穩定效力。內容的涌現效應疊加技術的不確定性,使得數據風險難以被限定在單一環節進而形成獨立免責,而是在模型訓練、部署、應用等跨階段過程中持續滲透并累加。例如,數據采集階段知情告知的缺位,經過模型訓練階段的隱私放大,最終可能在生成階段演化為針對某些群體的算法歧視。另一方面,對數據風險的感知與判斷,越來越依賴系統運行的可觀察結果,而程式化監管只能證明事前設計是否符合合規要求,無法單獨證明運行數據本身及其形態變化,是否繼續滿足用途限定。數據合規的責任鏈條尚未實現從線性分工到動態閉環的轉變,使得以階段性程序審查為中心的合規控制,難以覆蓋數據風險演變的全過程。這種矛盾在責任認定環節表現得尤為突出。合規控制強調對具體行為及其功能設計的合法性識別,但智能系統運行結果對應多場景的復合疊加,前端審查證據與后端風險演變之間缺少直接證明鏈。治理行動在時間上呈階段性,技術結果在時間上呈連續性,導致干預措施難以像既有方式那樣嵌入智能流程內部。
新型技術分工與既有責任框架的失配。人工智能技術的應用,重塑數據安全治理的責任分工格局,改變數據責任的配置方式。例如,數據的自動化采集與脫敏,增加人工數據審核的壓力;數據的智能清洗與自動修復,加大異常發現與動態敏感數據目錄編制的責任;隱私增強與區塊鏈,提升數據血緣、數據可追溯的監管要求。而數智融合環境下的技術分工與新崗位涌現,更對現有數據安全制度框架提出新的要求。一是安全責任歸屬上,未能針對算法開發者、模型訓練者、系統部署者等新型主體的預訓練數據選擇、算法偏見調控、結果可靠性等數據責任真空進行責任細化,僅明確了數據控制者(持有者)/數據處理者責任。二是監管機制上,未能從事后追責、抽樣審計轉換到事前嵌入式監管、合規即代碼,相應的數據安全責任認定,尚未從主觀過錯、違規后果判斷遞進到模型監控、數據行為可審計,如公開訓練數據來源、性能指標、已知偏差或可驗證的系統日志輸出等。三是問責標準上,未能從以結果損害為起點的原則性問責躍升到可量化、可評估的問責指標體系應用,如訓練數據多樣性指數、模型公平性得分、數據偏差檢測率、決策可解釋性評分等新型責任工具的開發。四是責任主體范疇未能完全實現從單一群體劃分向人機協同共治的延伸,組織分工與算法流程之間缺少穩定的責任歸屬,未能建立起人定規則、機器執行、人類監督的新型責任三角關系,模型和智能體缺乏獨立人格,管理者與使用者在面對算法建議、數據安全決策時的責任劃分與追溯仍存在操作性規則模糊。
規制進路
人工智能環境下的數據安全風險,是在數據快速流動、模型化使用與多主體協作中逐步生成的系統性風險。前文分析表明,現有數據安全治理在風險定位、合規判斷與責任承載等關鍵環節上,與人工智能系統的運行特征存在結構性不適配。相應地,治理方向的選擇不在于簡單疊加新的規則要求,而在于圍繞數據使用的全過程,將安全治理要求嵌入人工智能系統運行,重塑數據安全運維與責任體系,以建立起“技術+管理+流程+組織”四位一體的綜合性數據安全協同治理框架。
構建覆蓋全生命周期的數據合規管理機制。當前,歐盟《人工智能法案》、美國《關于安全、可靠、值得信賴地開發和使用人工智能的行政命令》均突出全生命周期監管與強制合規要求,如數據來源合法性、技術文檔與系統說明的透明度要求等,強調將數據來源記錄、用途說明、偏見檢測與風險分級納入合規框架。我國應構建覆蓋人工智能環境中數據全生命周期的合規機制,把來源透明、用途清晰和風險分級整合為持續過程,使合規機制能夠直接作用于模型系統的真實運作條件。第一,將數據來源相關信息的記錄、保留與傳遞納入數據全生命周期治理要求,增強數據在跨系統、跨主體流轉中的可追溯性,為安全評估和責任判斷提供穩定依據。第二,針對數據用途在人工智能應用中的持續擴展,建立數據使用目的說明與變更記錄機制,將數據用途的調整過程能夠被持續識別和審查,在技術演進的時間尺度內維持數據使用邊界的可判斷性。第三,通過明確的信息披露與共享安排,提升不同主體對數據使用狀態和限制條件的共同認知水平,減少誤用與越界調用在監管流程中的累積。第四,在保障人工智能創新潛力的前提下,對數據再利用行為實行有條件的風險分級治理,根據再利用方式和風險水平配置對應的驗證手段,對高風險數據活動進行更為直接及時的精準約束。
運用人工智能關鍵技術約束數據使用行為。有必要將數據安全治理進一步嵌入人工智能系統的關鍵技術環節,在數據與算法、系統交互層面設定針對性的安全治理要求,通過自適應安全預測與風險路徑推演,識別高頻風險模式與處置薄弱環節,不斷提升數據安全治理在人工智能環境中的現實有效性。我國的數據安全治理應與算法和系統操作形成緊密銜接,使治理要求能夠從流程內部對齊模型運行結果,維護隱私保護與安全控制的穩定性。第一,在人工智能預訓練階段,對數據的選取、處理與結構配置提出明確要求,促使進入模型框架的數據在代表性、完整性和一致性方面具備基本可控性,避免訓練問題固化為結構性偏差并對后續運行產生持續作用。第二,在人工智能系統運行階段,關注數據運行在模型調用、反饋與更新過程中的真實狀態,對使用中顯現的偏差累積和風險放大開展連續識別與動態干預,防止系統在時間與頻率的雙重強化下形成安全風險的持續擴散。第三,在人工智能部署與應用階段,結合具體場景對數據使用條件進行動態審視,對模型跨場景、跨系統應用可能引發的風險遷移和外溢問題加以約束,避免因環境變化導致原有安全假設失效,從而引發新的連鎖后果。
夯實多主體數據協作的信任基礎。人工智能的開發與部署必須在可信數據治理框架內維持可追溯責任與公平協作。面對人工智能應用過程中的數據質量問題、安全風險和責任機制缺失等多重困境,亟須通過制度約束來重新平衡數據生態系統中的權責利益分配,以負責任的數據治理增進不同主體之間的數據協作能力,塑造數據有序流通利用的良好生態[11]。第一,人工智能系統高度依賴高質量、多源數據的持續供給和更新,通過在人工智能數據使用規則中引入互惠原則,使數據提供、數據使用與由此產生的應用收益之間形成相對明確的對應關系,緩解數據主體對“長期投入但收益不明”的顧慮,增強其持續參與人工智能數據協作的意愿。第二,通過可感知的公平規則緩解人工智能數據使用中的信息與權力不對稱,進一步增強人工智能數據治理規則的透明度和適用性,提升其對人工智能數據治理框架的公平感知,降低因不信任引發的抵觸或防御性行為。第三,人工智能數據協作往往涉及訓練數據提供者、模型開發者、系統部署者和應用主體等多方參與,僅依靠抽象規則難以協調復雜的使用關系。通過數據信托、可信數據空間等設施,基于共識規則連接多方主體,實現數據資源共享共用,為人工智能應用場景下的多主體數據使用提供穩定的制度承載,使協作關系和信任預期能夠在持續運行中得到維護。
【本文作者為南京大學數據管理創新研究中心教授、博導;南京大學數據管理創新研究中心博士生田聰,對本文亦有貢獻】
注釋略
責編:賈 娜/美編:石 玉