【摘要】開源大模型的蓬勃發展,正在重塑全球人工智能競爭格局。產業界對“開源”存在兩種誤讀:或視其為數據無版權保護,或認為算法開源必然要求訓練數據同步公開。事實上,開源是基于許可證的有條件授權,算法開源與數據開放是兩個相互獨立的法律維度。當前,開源人工智能訓練數據利用,從獲取、處理到輸出的全鏈條,面臨授權缺失、個人信息保護失范、版權歸責不清等風險,且不同性質數據合規要求各異。推動開源訓練數據合規治理,需在完善授權契約、強化數據分類管理、部署技術防線、建設公共合規語料庫等方面協同發力,為中國開源人工智能產業的可持續發展筑牢法治根基。
【關鍵詞】開源大模型 訓練數據 數據合規 授權機制
【中圖分類號】D92 【文獻標識碼】A
2025年初,深度求索(DeepSeek)以開源方式發布高性能大模型,迅速引發全球關注。2026年,人工智能領域刮起一場破壁跨圈的“養龍蝦”熱潮,開源智能體OpenClaw(昵稱“龍蝦”),因能協助用戶處理文件管理等復雜任務而迅速走紅。2026年政府工作報告提出:“支持人工智能開源社區建設,促進開源生態繁榮。”①開源,正在成為中國人工智能產業參與國際競爭的重要方式。
隨著監管體系的持續完善,訓練數據合規問題日益凸顯,在人工智能產業發展中的重要性不斷提升。數據收集階段遺留的隱患,往往在產品上市、融資并購或監管審查時集中顯現,其帶來的法律代價遠超事前合規的成本。如何在開源生態的發展與訓練數據的合規治理之間找到清晰邊界,已成為產業界和監管層共同面對的現實考慮,也是中國開源大模型產業贏得全球信任、實現高質量發展亟待回答的問題。
開源不等于放棄法律約束,也不等于訓練數據必須公開
隨著大量企業和開發者加速進入人工智能賽道,有的人產生一種錯誤認識:既然模型開源,訓練數據便可隨意取用;既然模型公開,訓練數據理應向外開放。在法律層面,這兩種推斷均難以成立,由此積累的合規隱患不容低估。
開源從來不意味著免于授權約束。開源的法律基礎,建立在許可證制度之上。權利人并沒有放棄版權,而是借助版權,通過格式化合同,向公眾有條件地讓渡使用、修改和分發的權利。不同許可證設定截然不同的權利邊界:有的允許商業使用,但要求保留版權聲明,有的要求所有衍生作品必須以相同協議開源,還有的明確禁止商業用途。違反許可證條款,附條件的授權即告終止,繼續使用便構成侵權。此外,模型開源又與技術透明存在本質差異,即便在設置相應許可證協議的情況下開放模型參數,仍可能無法滿足數據來源公開合法的相關要求②,二者不能混為一談。
將這一邏輯延伸至訓練數據領域,道理完全一致。數據在互聯網上“公開可訪問”,并不等于可以合法地用于模型訓練。網絡上的文章、圖片、新聞、影視內容,絕大多數受著作權法保護;含有個人可識別信息的數據,受《中華人民共和國個人信息保護法》規范約束;經過專業整理的結構化數據庫,還可能涉及數據庫權利或商業秘密保護。《生成式人工智能服務管理暫行辦法》第七條要求,生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,涉及知識產權的,不得侵害他人依法享有的知識產權;涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形。③《中華人民共和國數據安全法》第十三條就數據來源合法性設置專門的義務性條款。④“來源合法”不是一句原則性表述,而是須逐項對照、具體落實的法定義務。
“算法開源”并不等同于“訓練數據必須公開”。模型權重的開源,是指模型的架構、訓練代碼乃至參數以開放許可證方式發布,允許他人下載、使用和修改;訓練這一模型所使用的數據,與模型本身是兩種不同性質的客體,適用不同的法律規則,遵從不同的權利安排,二者之間不存在任何意義上的邏輯綁定。以醫療大模型為例,其訓練數據往往涉及大量患者病歷,相關授權通常只覆蓋內部用于訓練模型這一特定目的,不包含向公眾公開重新分發的權利。強制要求此類模型公開訓練數據,反而在迫使企業違反個人信息保護義務。這不是個別案例的特殊處境,而是大量真實場景下共同面臨的困境。
訓練數據凝聚企業大量研發投入與商業積累,是維系核心競爭力的重要資產。只要這些數據的獲取符合來源合法的基本要求,企業完全有權選擇不予公開。這既是商業邏輯的自然延伸,又是對法律制度的正當維護。中國企業在開源大模型領域取得的競爭優勢,恰恰建立在算法開放、數據自主的發展路徑之上。以開放的模型架構吸引全球開發者生態,以受控的數據資產守護核心競爭壁壘,二者并行不悖,相互支撐,這正是中國開源大模型產業在全球競爭中逐步建立優勢的內在邏輯所在。厘清上述兩個維度的邊界,是開源人工智能產業走向規范發展的前提。算法的開放與數據的自主,并非矛盾對立,而是相輔相成。授權合法性,是貫穿訓練數據全鏈條合規治理的重要依據。
開源訓練數據利用在獲取、處理、輸出環節均存在法律風險
從數據被采集進入訓練管道,到模型訓練完成后向用戶提供服務,風險貫穿獲取、處理、輸出多個環節,形成一條完整的傳導鏈條,任何一個環節的疏漏都可能引發難以預料的法律后果。
獲取環節面臨的首要挑戰,是許可授權的邊界難以清晰把握。大規模語料庫的構建通常依賴自動化抓取技術,這類工具不會主動區分哪些內容受到版權保護、哪些平臺明確禁止商業用途的數據抓取。強行突破網站協議限制抓取數據,可能構成著作權侵權,在《中華人民共和國反不正當競爭法》框架下,也可能被認定為損害他人合法商業利益的不正當行為。更值得警惕的是,許可授權的失效往往發生在數據流轉的中間環節,而非源頭。一批數據在最初發布時附帶特定許可證,經過多次截取、合并、重新打包,進入另一個數據集時,原始的授權約束已無從追溯。使用者看到的是眼前數據集的許可標簽,以為合規可用,卻不知底層數據的授權在某個流轉節點早已失效。這種許可洗錢現象,是當前數據集流通缺乏可追溯授權記錄機制的必然產物,僅憑許可標簽判斷數據是否可用,本身就是一種系統性的合規疏漏。
處理環節的風險,主要集中在個人信息保護義務的有效落實上。《中華人民共和國個人信息保護法》第十三條、第十四條確立以知情同意原則為核心的個人信息處理合法性框架。⑤實踐中,互聯網用戶發布內容時,通常并未預期自己的信息會被用于人工智能模型訓練;企業在構建海量訓練數據集時,也幾乎不可能逐一向所有涉及的信息主體履行告知義務。這種結構性困境,使得訓練數據的個人信息合規問題,難以通過簡單套用現行規則加以解決,需在具體場景下作出精細化的法律判斷。更深層的挑戰在于信息刪除權的有效落實。當數據主體依法行使刪除權時,企業面臨的并不只是一個數據庫操作問題,而是一個在現有技術條件下尚無成熟解決方案的法律義務履行難題。具體而言,已融入模型權重的數據影響,既難以精準定位,又難以徹底消除。這表明,在數據輸入端切實貫徹個人信息最小化原則,從源頭控制訓練語料中個人信息的比例與類型,遠比依賴事后補救更具現實意義。
輸出環節的風險,則源于模型訓練過程中形成的內容記憶問題。在特定條件下,語言模型在生成內容時存在一定概率重現訓練語料中的具體表述,其中包括個人可識別信息,該問題已逐漸成為國際版權訴訟中的核心爭議焦點。對于服務提供者而言,即便在數據采集階段已盡到合理注意義務,模型發布之后仍可能因輸出內容引發侵權糾紛。更為復雜的是,當用戶通過特定方式誘導模型輸出有問題的內容時,平臺提供者、模型開發者與終端用戶之間的責任如何劃分,現行法律框架尚未給出清晰答案。這種責任歸屬的不確定性,要求服務提供者以更主動的姿態進行風險防范。
訓練數據合規治理,要對合規義務進行差異化認定
不同性質的數據,面臨的合規風險大相徑庭,相應的義務要求也不應一概而論。把所有訓練數據都放在同一把尺子下衡量,要么讓企業承受不必要的合規負擔,要么讓真正的高風險數據在粗放管理中被忽視。因此,差異化認定,是訓練數據合規治理的基本原則,也是把制度要求落實為可操作實踐的必要前提。
從數據來源與屬性出發,可以將訓練數據大致區分為四類,各自對應不同的合規門檻。明確具有開放許可或已進入公有領域的數據,如政府依法開放的公共數據集、著作權保護期已屆滿的歷史文獻,合規門檻相對較低,在遵守具體許可條款的前提下即可使用,是企業應當優先擴大利用的數據資源??晒_訪問但許可狀態不明確的數據,企業須主動核查權利狀態,對無法追溯清楚授權鏈條的數據保持審慎。含有個人信息的數據,無論是否公開,都須嚴格依據《中華人民共和國個人信息保護法》核查處理的合法性基礎,優先通過去標識化技術降低個人信息處理規模,我國已發布相關國家標準提供操作指引與效果評估方法,企業可據此建立具體的合規控制機制。涉及重要數據或商業秘密的情形,則須按照《中華人民共和國數據安全法》確立的數據分類分級保護制度,執行更高級別的安全保護要求,涉及跨境傳輸的,還須提前完成安全評估或簽署標準合同。
企業內部合規與數據對外開放,是兩個相互獨立的命題。清華大學法學院教授申衛星曾主張賦予數據處理者對數據利用方式的自主決定權,認為數據處理者有權在法定范圍內自主決定是否許可、以何種方式許可他人使用其數據。⑥數據合規的目標,在于確保所使用的訓練數據在來源上合法、在處理上規范、在安全上可控。這項義務的完成,與數據是否向外公開,在邏輯上并無關聯。一家企業完全可以對每一類訓練數據都建立清晰的授權記錄,同時選擇不向外部主體披露這些數據的具體內容。二者并行不悖,前者是法律義務,后者是商業自主權。將合規達標與數據開放捆綁在一起,既無法律依據,又不符合數字經濟發展的內在邏輯。正在積極布局開源戰略的中國人工智能企業,尤其需要在戰略層面對這一邊界保持清醒認識。
推進開源訓練數據合規治理的可行路徑
推進開源訓練數據合規治理,既需企業在微觀層面建立健全內部管理機制,又需政策層面提供有力的制度支撐。
完善授權契約與權利瑕疵擔保機制。授權合法性的建立,首先要從契約層面把好入口關?,F實中不少企業采購訓練數據時,習慣以許可標簽作為合規判斷的依據,而數據在多次流轉、拆分與重新打包的過程中,原始授權能否完整傳遞,往往難以追溯。一旦發生侵權糾紛,這種僅憑標簽判斷合規的做法往往經不住法律檢驗。企業在與數據供應商簽訂合同時,應要求其提供完整的數據來源證明與授權鏈路文件,并植入權利瑕疵擔保條款,明確因數據來源違規引發的第三方索賠責任由供應商承擔。這一安排不僅實現風險合理分配,而且通過商業機制推動數據供應鏈整體合規,防止隱患層層傳遞。涉及從用戶端采集數據用于模型訓練的,要在隱私政策與用戶協議的顯著位置清晰說明相關安排,并提供真實可操作的退出路徑,不能以格式化聲明代替實質性告知。授權鏈條的完整與清晰,既是企業應對監管審查與法律糾紛的重要依據,又是開源生態建立長期信任的制度基礎。
建立數據分類分級管理與內控制度。數據要素市場化配置的關鍵之一,在于建立與數據性質相匹配的權利保護與流通規則,不同類型的數據,理應適用不同的制度安排。這一原則落實到企業內部,意味著要建立針對訓練數據資產的常態化盤點機制,將數據池中的各類數據按照來源性質與風險等級進行分類標注,形成清晰的資產臺賬,明確記錄每一類數據的來源渠道、授權形式、適用范圍與合規狀態。在此基礎上,實施差異化的訪問控制,將高風險數據與低風險數據進行隔離管理,嚴格限制接觸高風險數據的人員范圍和操作權限。2025年發布的國家標準《網絡安全技術生成式人工智能服務安全基本要求》(GB/T 45654-2025),從訓練數據來源合法性與內容安全性兩個維度,對生成式人工智能服務提出可評估、可抽檢的具體要求,并配套給出測評方法與結果判定標準,為企業合規實踐提供清晰的操作依據。企業可以此為基準,在內部建立數據臺賬,落實分類分級管理,形成持續可審計的合規機制,將數據治理從被動應對轉化為主動管理,為模型的持續迭代提供堅實保障。
強化自動化篩查與輸出安全攔截機制。在數據進入訓練管道之前,可部署自動化篩查工具,對訓練語料中可能含有的個人可識別信息進行系統性清除,對帶有強著佐權條款的數據進行識別與隔離,從源頭阻斷許可證污染的擴散。技術工具的有效應用,并非取代法律合規判斷,而是在規?;臄祿幚韴鼍爸袨楹弦幜x務的落實提供效率支撐。在模型向用戶提供服務之后,輸出端的風險管控同樣不可忽視,要建立內容過濾機制,對可能涉及重現訓練語料的輸出內容實施預警和攔截。我國現行的國家標準和監管規范,在自動化安全要求方面已形成較為系統的操作指引,企業應當將這些要求切實轉化為工程實踐,推動合規管理從紙面落到實處。技術防線與制度規范協同發力,方能構筑起訓練數據合規的有效屏障。
推動高質量公共合規語料供給建設。企業層面的合規實踐,離不開健康數據生態的支撐。當前,高質量合規訓練數據的總體供給不足,已成為制約我國人工智能產業發展的現實瓶頸,客觀上驅使個別企業尋找灰色替代。從根本上破解這一問題,不能僅靠強化事后監管,更需從供給側發力,讓合規數據成為企業可及、可用的選擇。為此,要強化國家層面的公共語料庫建設,統籌推進政務數據、公共文化資源、科學數據的合規開放,形成規范授權、質量可控、持續更新的基礎語料供給體系。同時,鼓勵有條件的科研機構和行業平臺系統性地收集、過濾并以開放許可證發布高質量中文語料,以供給側的有效擴容,逐步消解違規抓取的市場誘因。中國在開源大模型領域的領先優勢,需與高質量合規語料庫建設緊密結合,方能轉化為可持續的產業競爭力。
開源不是合規的豁免通行證,開放也不等同于合規本身。中國開源大模型產業正處于快速發展的關鍵階段,技術能力的持續突破令人振奮,合規意識與治理能力的跟進同樣不可或缺。開源訓練數據的合規問題,已從一個容易被忽視的細節,演變為關乎企業能否走遠、產業能否走穩的基礎性議題。監管規則的持續完善、國內外版權糾紛與數據安全事件的接連出現,都在提示這一領域的現實分量。
積極推動開源訓練數據合規治理,是中國人工智能產業高質量發展的內在要求,也是開源生態持久繁榮的重要前提。主動建立以授權合法性為核心、以數據全生命周期管理為抓手的合規體系,既能有效防范法律風險,又將成為企業贏得市場信任、構建長期競爭優勢的重要支撐。當前,中國開源大模型在全球格局中的影響力持續上升,鞏固并擴大這一優勢,既需技術的持續突破,也需法治的堅實保障。我國倡導的開放創新并非簡單沿用既有開源規則,應合理評估開源許可證的法律風險,構架自主可控的開源社區。⑦數據合規并非對技術創新的束縛,恰恰是創新得以持續的基礎條件。唯有把合規的根基打牢,中國人工智能產業才能在全球競爭中行穩致遠,在全球人工智能治理格局中發揮更積極的引領作用。
【注:本文系中國法學會2025年度部級法學研究重點委托課題“人工智能風險挑戰及法律治理”(項目編號:CLS(2025)ZDWT51)、最高人民法院2025年度司法研究重點資助課題“開源技術知識產權法律問題研究”(項目編號:GFZDKT2025B18-3)階段性研究成果】
【注釋】
①《政府工作報告——二〇二六年三月五日在第十四屆全國人民代表大會第四次會議上》,《人民日報》,2026年3月14日。
②張平:《透明度原則在人工智能治理中的適用》,《數字法治》,2025年第1期,第24頁。
③《生成式人工智能服務管理暫行辦法》,中國網信網,2023年7月13日。
④《中華人民共和國數據安全法》,中國人大網,2021年6月10日。
⑤《中華人民共和國個人信息保護法》,中國人大網,2021年8月20日。
⑥申衛星:《論數據用益權》,《中國社會科學》,2020年第11期,第129頁。
⑦辜凌云:《以許可證為核心的開源社區治理邏輯》,《知識產權》,2024年第6期,第49頁。
責編/靳佳 美編/王夢雅
聲明:本文為人民論壇雜志社原創內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。