摘 要:作為模型能力構建與產業應用拓展的基礎性投入,數據要素有效供給與高效配置已成為影響人工智能創新發展的關鍵變量。從數據要素賦能人工智能的內在邏輯來看,數據不僅貫穿模型訓練到能力涌現的全鏈條,更通過跨領域匯聚與場景化配置持續拓展人工智能的應用邊界。鑒于此,亟須構建面向人工智能就緒度和應用績效的雙維評價認證體系,推進標注體系的智能化與平臺化建設,完善數據權益保障與流通基礎設施建設,以真實業務需求驅動高質量數據集建設,切實提升數據要素賦能人工智能創新發展的系統性與可持續性。
關鍵詞:數據要素 人工智能 人工智能創新發展 高質量數據集建設
【中圖分類號】F49;TP18 【文獻標識碼】A
“十五五”規劃綱要提出:“把握數字化、網絡化、智能化發展大勢,充分發揮我國數據資源豐富、產業體系完備、應用場景廣闊優勢,激活數據要素潛能,加快數智技術創新,深化拓展‘人工智能+’,賦能經濟社會發展和治理能力提升,促進生產方式深層次變革和生產力革命性躍遷。”[1]在人工智能持續演進的過程中,數據作為新型生產要素的重要作用空前凸顯,其不僅是人工智能模型訓練和優化的基礎投入,而且是決定模型性能上限、行業應用深度和技術迭代方向的關鍵要素。換言之,人工智能的創新發展越來越依賴于數據要素的有效供給和高效配置。
2023年12月,國家數據局等部門發布的《“數據要素×”三年行動計劃(2024—2026年)》提出,“完善數據資源體系,在科研、文化、交通運輸等領域,推動科研機構、龍頭企業等開展行業共性數據資源庫建設,打造高質量人工智能大模型訓練數據集”,直接將數據集建設與人工智能發展需求相掛鉤。2025年8月,《國務院關于深入實施“人工智能+”行動的意見》提出“加強數據供給創新”;國家數據局發布《高質量數據集建設指引》,闡明高質量數據集是人工智能發展的基礎支撐,并進一步圍繞高質量數據集的分類標準、建設流程和質量評估提供規范框架。近年來,在數據要素賦能人工智能創新發展方面,國家已形成多層次的政策部署。“數據賦能人工智能創新發展”,成為數據要素市場化配置改革“5+3+1”工作體系中的“1個重點”。
在政策與市場驅動下,高質量數據供給正在加快形成,但與大模型和行業模型快速擴張的需求相比,數據質量、專業性與場景適配性仍存在明顯缺口。數據要素賦能人工智能需關注的重點、推進過程中所面臨的挑戰以及如何應對,是當下亟需回應的重要議題。
抓住重點
注重人工智能的能力構建。機器學習是人工智能的核心驅動力,其從海量數據當中提取有價值的信息,幫助人類作出預測、判斷和生成所需的內容。[2]人工智能模型基于大規模數據集訓練后,能夠捕捉到越來越精細的統計規律與關聯模式。從而,實現從淺層感知到深層認知的躍遷。當人工智能參數規模和訓練數據達到特定閾值,其還會在未經專門訓練的任務上“涌現”出超過預期的泛化能力,結合少量領域專用數據微調即可適配特定任務,降低垂直領域人工智能應用的開發門檻。可以看出,數據要素貫穿人工智能能力構建的全鏈條,是決定人工智能能力上限的關鍵變量。
拓展人工智能的應用場景和產業邊界。不同行業、不同領域的數據雖具有差異化結構特征和語義內涵,然而,經匯聚、整合并被擁有泛化能力的人工智能利用,便可形成面向特定場景的垂直智能解決方案。例如,在農業領域,福建省龍巖市武平縣廈中村依托“供銷農場”模式,將智能蟲情測報燈、物聯網傳感器、植保無人機等設備部署于田間,實現對土壤墑情、蟲害態勢的全天候數據采集與智能分析。人工智能技術與“供銷農場”模式疊加后,病蟲害防控從“見蟲殺蟲”轉變為主動防控,每畝農田可節省人工成本450元,全程智能化運營后總成本預計再降600元。[3]每一種新的數據類型開放與流通,都意味著人工智能應用版圖的一次擴展。
加強高質量數據集建設。在數據要素賦能人工智能創新發展方面,數據數量和數據質量都至關重要。噪聲數據、偏差數據不僅無法提升人工智能模型性能,反而可能引入系統性偏見和錯誤。就此而言,高質量數據集建設至關重要。一方面,高質量數據集是構筑國家核心競爭力的關鍵要素和維護國家安全的重要屏障。掌握高質量、主權可控的優質數據資源,不僅關乎我國是否能在全球數字經濟版圖占據有利地位,而且將直接影響產業鏈、供應鏈的韌性與安全。尤其對于金融、能源、交通、國防等關鍵領域,高質量數據集的建設與治理更是保障經濟社會穩定運行、提升國家治理體系和治理能力現代化的內在要求,是推進國家安全體系和能力現代化不可或缺的組成部分。另一方面,高質量數據集是驅動產業深度轉型和催生重大科技突破的前提條件。從產業應用看,海量、優質、多樣的數據集是人工智能性能躍升的基礎。隨著人工智能模型不斷變“大”,數據供給不足已經成為亟待解決的問題,數據質量成為制約人工智能從“可用”向“好用”跨越、深度賦能實體經濟的瓶頸。只有通過建設面向具體場景的高質量數據集,才能真正打通技術落地的“最后一公里”。從科技創新看,未來的科學發現愈發依賴數據驅動的研究范式,高質量、富含深刻領域知識的數據集,正是科學家探索、發現新規律所必需的“創新燃料”。
認清挑戰
從國際比較視角看,數據要素賦能人工智能創新發展的戰略共識已經形成。2025年,歐盟發布《人工智能大陸行動計劃》,將“增加高質量數據獲取渠道”作為五大戰略行動之一;美國《人工智能行動計劃》將“構建世界級科學數據集”作為加速人工智能創新的關鍵舉措,并強調高質量數據已經成為國家戰略資產。當前,盡管我國高質量數據集建設已經取得初步進展,但下一步推進仍面臨一些可預見的現實挑戰。
高質量數據供給規模仍然不足。我國數據資源總量大、增長快,但“數據多”并不等于“數據好”。一方面,支撐前沿科研與行業深度應用的中文高質量語料、專業知識數據和多模態場景數據不足。尤其是醫療、制造、法律、科學研究等專業領域,數據稀缺問題較為突出。另一方面,為行業廣泛認可的標準體系尚不健全,導致不同主體、不同環節的數據難以互通互認,不能形成可復用、可驗證、可遷移的高質量數據集。此外,現有數據質量評價仍較多停留在完整性、一致性等基礎指標,對于知識密度、標注準確性、場景適配度和模型貢獻度等關鍵維度的關注度不夠,致使部分數據集存在“量大而不精”“可得而不好用”的問題。
數據加工技術成熟度有待提升。高質量數據集建設高度依賴的數據清洗、標注等工作,很大程度上依賴人工密集型作業方式,不僅成本高、周期長,而且在專業領域容易受到操作者能力差異的影響。對于醫療影像、工業質檢、科學實驗、少數民族語言等復雜場景而言,既懂業務又懂數據處理的人才儲備更為有限,進一步抬高高質量數據集建設門檻。[4]與此同時,面向復雜任務的數據合成、數據蒸餾、質量校驗與持續迭代等關鍵技術成熟度較低,難以穩定支撐高質量數據集的規模化供給。
數據流通與協同治理機制尚不健全。數據要素的價值實現依賴跨主體流通與場景化配置,然而實踐中仍存在制度性障礙。原始數據資源到高質量數據集的轉化路徑不夠清晰,部分建設工作存在碎片化和重復化問題。跨部門、跨地域、跨行業的協同治理機制尚不健全,難以形成穩定的資源匯聚與利益協調。即使在政府主導的公共數據授權運營場景下,運營主體確定、收益分配模式等方面規則的模糊也使實踐效果受到影響。[5]除此之外,數據產權、責任認定和合規審查等制度安排亟需細化。高質量數據集往往涉及利益主體較多,權屬分配、合規責任不明。出于合規風險、收益分配等方面的顧慮,容易出現“不愿共享、不敢共享”的現象。
精準施策
建立面向人工智能就緒度(AI-Ready)和應用績效的高質量數據集評價認證體系。當前高質量數據集評價不能繼續停留于完整性、一致性等通用指標,而應按照通識類、行業通識類和行業專識類數據集的差異,面向人工智能就緒度、應用績效,構建“靜態質量+動態效果”相結合的雙維評價框架。[6]靜態質量主要考察準確性、完整性、多樣性、真實性、合規性、標簽精度和元數據完備度;動態效果通過代表性模型和基準任務,檢驗數據集對模型性能、場景適配度和遷移效果的實際貢獻。《高質量數據集建設指引》中,已經初步提出靜態和動態質量結合的評估思路。下一階段需要具體落實《高質量數據集建設指引》,聚焦數據集是否可復用、可驗證、可遷移,加快推進驗證試點工作開展。
堅持以真實業務場景牽引高質量數據集建設,形成“需求提出—數據治理—模型訓練—應用反饋”的閉環。高質量數據集建設的關鍵,不在于單純擴大數據規模,而在于從真實業務流程中提煉任務定義、標簽體系和成效指標。只有讓模型在真實場景中接受檢驗,才能反向暴露數據在覆蓋度、標注精度和知識密度等方面的短板,進而引導數據集的持續迭代與改進。換言之,場景不僅是高質量數據集的消費端,更是評價數據質量標準和驅動數據集建設的需求錨點。2025年國家數據局發布104個高質量數據集典型案例,2026年又推動72家鏈主單位簽署任務書,說明政策重心已經轉向由行業鏈主和重點場景帶動數據集建設。下一階段,需要繼續著眼工業、農業、醫療、金融等數據密集且有明確數據的重點行業,基于此開展試點示范工程。通過將該行業的高質量數據集建設成果與具體業務產品緊密結合,以點帶面形成可復制、可推廣的成功模式。
推進數據加工和標注體系的智能化、平臺化建設,提升高質量數據集規模化供給能力。數據加工環節的重點,不宜再簡單重復人工成本高、效率低等問題判斷,而應轉向具體的技術路線設計。發展多模態標注、標注審查、質量評估和基于思維鏈的專家標注等智能化工具,探索“大模型預標注—人工復核—抽樣校驗—持續回灌”的協同流程;圍繞醫療、制造、自動駕駛、低空經濟等重點行業,建設數據標注創新平臺和公共服務平臺,推動數據、模型、工具、場景一體化供給;依托數據標注基地和開源平臺形成規模化生產能力。數據顯示,2025年上半年,國家數據局指導建設的7個數據標注基地,已累計建設數據集524個,服務大模型163個,[7]表明數據集供給正在從分散生產走向基地化、平臺化和產業化。對低資源行業與長尾場景而言,數據合成、數據增強和蒸餾技術可以作為補充手段,但仍需以真實場景數據為錨,并對合成數據實施必要的質量評估和邊界控制。
完善數據權益保障與流通基礎設施,構建安全可信的數據共享利用體系。當前流通機制建設的重點,已從泛泛而談的“打破數據孤島”,轉向制度供給與技術設施的協同推進。圍繞《加快公共數據資源開發利用的意見》,我國已形成公共數據資源開發利用“1+3”政策體系,在登記管理、授權運營和價格機制等方面實現從原則到細則的銜接;《關于促進企業數據資源開發利用的意見》提出推動數據持有權、使用權、經營權等分置運行,探索“授權使用、分享收益”模式。下一步,應加快將權利分置原則轉化為可操作的實施規范,重點圍繞多方貢獻數據集的權屬界定,建立標準化的確權登記與糾紛解決機制,并針對企業數據經加工、標注后形成的衍生數據集,明確增值收益的分配規則,增強有關主體參與數據流通活動的現實意愿。[8]技術設施層面,依托《可信數據空間發展行動計劃(2024—2028年)》的系統布局,以及企業、行業、城市三類可信數據空間試點的實踐基礎,加快將可信管控、資源交互和跨空間身份互認等核心功能與人工智能數據需求對接,重點面向模型訓練和行業應用場景,推動聯邦學習、安全多方計算等隱私計算技術的嵌入式部署,形成數據在“可用不可見”條件下的規模化供給能力。例如,福州的公共數據分級開發與智慧水系聯排聯調平臺,對城區1000余個庫、湖、河、池、閘、站的調蓄效益提升30%以上,排水防澇應急處置效率提升50%。基于統一平臺,通過分級開發、“一模型一評估、一場景一授權”和“可用不可見”等方式,實現數據安全調用和場景化利用,證明數據流通的關鍵不只是“放開”,而要通過制度、技術和管理的協同設計,實現供數方、用數方和運營方形成穩定預期。
為進一步確保我國高質量數據集建設的有效推進,還需同步構建完善的支撐體系。資源支持上,設立國家人工智能數據集專項建設基金。加大對于數據合成、隱私計算等關鍵共性技術的研發支持,建設國家級的數據技術“測試場”與中試基地,加速新興技術的驗證、轉化與應用推廣。能力建設上,高度重視跨學科人才的培養,尤其是注重吸納各類應用場景方面的相關專家,為數據集價值評估和治理提供更為全面的視角。同時,積極推動國際交流,借鑒全球先進經驗,參與國際數據治理規則制定。保障措施上,建立明確的目標分解與責任機制。做好統籌協調工作,避免出現重復建設與資源分散等問題;通過常態化的效果評估與機制優化,確保高質量數據集建設工作能夠持續、穩定推進;加快數據權屬、數據合規等制度建設,明確相關主體的權利與義務,保障數據能在穩定、可預期的框架之內得到穩定、高效的流通利用。
【本文系國家自然科學基金應急管理項目“全球數字和人工智能治理體系演變趨勢及我國政策優化研究”(項目編號:72541027)階段性成果;清華大學公共管理學院博士后吳宗澤,對本文亦有貢獻】
注釋
[1]《中華人民共和國國民經濟和社會發展第十五個五年規劃綱要》,《人民日報》,2026年3月14日,第1版。
[2]龔克:《人工智能,從深度學習到全面賦能》,《人民日報》,2025年2月26日,第16版。
[3]劉玉榮等:《從靠天吃飯到數據種田,院士專家“把脈”助力我市走出山區智慧農業新路徑——跟著院士種好田》,《閩西日報》,2026年1月19日,第1版。
[4]程樂:《構建以數據流通為核心的工業互聯網生態體系》,《人民論壇》,2024年第15期,第62-67頁。
[5]張凌寒:《加快建設人工智能大模型中文訓練數據語料庫》,《學術前沿》,2024年第13期,第57-71頁。
[6]林鎮陽等:《數據要素市場中高質量數據集評價指標體系建設研究》,《信息資源管理學報》,2025年第15期,第52-66頁。
[7]《7個數據標注基地建設數據集524個》,《人民日報》,2025年7月23日,第12版。
[8]夏義堃:《探索人工智能環境下的數據安全治理路徑》,《國家治理》,2026年第4期,第21-28頁。
責編:周小梨/美編:石 玉