摘 要:高質量數據集是指具備高價值、大規模、多樣性特征,可直接或間接用于人工智能模型開發訓練的數據集合。推進高質量數據集建設,既要立足當前,面向人工智能模型開發訓練需求,綜合并推定標準、立標桿、造場景、增投入等政策工具;也要著眼長遠,發揮市場在數據要素資源配置中的決定性作用,以日臻完備的數據基礎制度體系,持續激發數據要素價值釋放。
關鍵詞:高質量數據集 數據供給 數據要素 人工智能
【中圖分類號】TP311 【文獻標識碼】A
習近平總書記指出“要構建以數據為關鍵要素的數字經濟”[1],強調“做大做強數字經濟,拓展經濟發展新空間”[2]。“十五五”規劃綱要提出“深化數據資源開發利用”,強調“加快建設人工智能語料庫,面向能源、交通、制造、教育、健康、金融等領域建設高質量數據集”。[3]人工智能是新一輪科技革命和產業變革的重要驅動力量,將對全球經濟社會發展和人類文明進步產生深遠影響。數據之于人工智能的重要戰略作用,已經在技術進步、企業崛起、產業變遷、新質生產力孕育壯大等多個實踐維度充分展現。
高質量數據集,既是人工智能與實體經濟融合的重要載體,又是人工智能大模型訓練的關鍵要素資源,在夯實人工智能發展數據基礎、推動“人工智能+”場景落地等方面的作用日益凸顯。高質量數據集的關鍵在于高質量,可以從數據要素價值化維度和人工智能模型開發維度兩個層面進行辨析,進而對高質量數據集建設的現狀與面臨的問題作出判斷。我們既要立足當前,面向人工智能模型開發對高質量數據集供給的迫切需求,在標準、技術、人才等方面加大引導和支持力度;也要著眼長遠,把握數據要素市場化客觀規律,以高市場價值的數據資源供給為突破口,更大限度釋放數據要素市場價值。
高質量數據集內涵與特征
伴隨信息經濟時代主流技術更迭演進,世界發展經歷了信息技術、互聯網、數字技術,再到當前人工智能技術驅動的數智技術。以數據為中心的人工智能(Data-centric AI)理念成為共識,數據成為推動人工智能發展的關鍵戰略要素,高質量數據集則構成人工智能發展的基礎支撐。產學研各界關于高質量數據集的研究,迅速擴展到數據標準化、評測體系、安全合規、可信流通、開放生態和資產化等多個層面[4][5]。有的研究從數據要素價值釋放的角度,分析高質量數據集建設面臨的深層次問題和挑戰,認為高質量數據集的關鍵在于高市場價值的數據集合的持續供應,應著力解決數據產權、流通交易和收益分配、安全治理等制約數據要素市場化價值化的基礎制度難題[6]。
基于文獻解析和數據要素是新型生產要素的判斷,可從廣義、狹義兩個維度分析高質量數據集的內涵和特征。從廣義視角看,高質量數據必然具備較高市場價值,因此高質量數據集建設意味著產生更多具有市場價值的優質數據集合,通常表現為可實現價值化的數據產品和服務。據此,廣義的高質量數據集可以理解為,具有比較清晰的數據持有權、使用權和經營權權屬,能夠高效規范地流通交易,擁有清晰無爭議的收益分配方案,并恪守數據安全保護底線的各類數據集合。可見,廣義層面的高質量數據集,更多是從數據要素視角進行界定和特征描述。
從狹義視角理解高質量數據集內涵,主要是面向人工智能模型開發訓練的需求,即指經過采集、加工等數據處理,可直接用于人工智能模型開發訓練,并能有效提升模型性能的數據集合[7]。這類數據主要服務于人工智能實際應用場景,由特征、標簽、元數據和樣本等要素構成。在此范疇下,高質量主要體現為大規模、多模態(多樣性)、人工智能就緒、高價值應用、高知識密度、高技術含量等特征。其質量標準可以通過準確性、完整性、一致性、時效性、多樣性、真實性、合規性等靜態質量和動態指標進行量化衡量,更加強調數據集在模型訓練和應用中的實際效果[8]。
綜上,高質量數據集是指具備高價值、大規模、多樣性特征,可直接或間接用于人工智能模型開發訓練的數據集合。在數智化趨勢下,高質量數據集對人工智能模型訓練開發的作用愈發凸顯。在其市場價值尚未充分激發的前提下,亟需從政策層面在標準、場景、技術、人才、資金方面予以引導和傾斜,以政策牽引推動高質量數據集建設,進而推動人工智能技術創新迭代,將海量沉睡數據資源轉化為提升數智技術整體效能的競爭優勢,釋放數據要素價值。隨著高質量數據集的市場價值進一步激活,越來越多經營主體將有意愿、有動力、有魄力,對數據集及數據產品服務開展規模化投資。屆時,政策著力點將從事前引導、直接扶持等方面,轉向搭建平臺、培育生態、底線監管等方式,通過多措并舉,更好發揮市場在數據要素資源配置中的基礎性作用和決定性作用。
高質量數據集建設現狀與挑戰
一段時間以來,高質量數據集建設呈現快速發展、主體多樣、場景牽引、模型企業先行、政策引導等特征,為人工智能模型訓練開發提供有力支持,大大激發數據要素價值持續釋放。同時要看到,高質量數據集建設仍面臨堵點卡點,包括高質量源頭數據獲取難、數據合規和安全風險高、數據治理成本高、經營主體為數據“買單”持觀望態度等。
相關數據顯示,截至2025年,國家數據局聯合26個部委遴選的72家鏈主單位,已經在科學、教育、具身智能等領域先行先試,部署140項高質量數據集建設任務,建成高質量數據集超10萬個,規模超890PB(拍字節)[9],較2025年6月高質量數據集超過3.5萬個、總體量超過400PB的規模[10],實現顯著提升。從建設主體看,呈現央企和制造、醫療、能源、交通等行業龍頭企業、人工智能數據服務企業、數據交易平臺和數商、高校和科研機構、地方政府及數據集團等多方主體協同推進的格局。其中,人工智能龍頭企業與地方政府等,在高質量數據集建設方面表現出投資規模大、更積極踴躍的趨勢。從行業分布看,鋼鐵、汽車、工業制造、能源、醫療、文化、旅游、傳媒、農業等傳統產業,以及低空經濟、智能駕駛、具身智能等新興產業,高質量數據集建設的步伐顯著快于其他行業。究其原因,主要在于這些行業普遍具有數據基礎扎實、場景需求迫切、引領示范效應強、政策引導力強、未來發展高度依賴人工智能模型等特征。與此同時,考慮到高質量數據集在數智化趨勢下的重要戰略意義,加之其前期商業價值尚未充分顯現、存在一定程度市場失靈的特征,政策工具牽引乃至政府部門直接投入的趨勢也比較明顯。
我國擁有海量數據資源與豐富應用場景,優勢比較明顯。過去幾年,公共數據開放、政務信息共享取得長足進展,卻也存在起步較晚、發展相對滯后的問題。與此同時,企業數據與個人數據在采存及開發利用環節,仍面臨“不愿供、不想供、不能供”等痛點,導致高質量數據集建設所必需的優質源頭數據獲取難的問題,可能在較長時間內持續存在。此外,《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》等法律法規已相繼出臺,國家數據局等部門也在積極詮釋、宣貫有關數據持有權、使用權、經營權的數據產權結構性分置制度,但新興領域制度從頒布出臺到全面落實、深入人心,必然是一個長期且復雜的過程。當企業普遍擔憂數據交易中的安全和法律風險時,為數據付費、主動投入高質量數據集建設的意愿便會受限。對部分人工智能企業的調研顯示,用于人工智能模型訓練開發的高質量數據集建設,存在投入資金門檻高、價值轉化周期長等問題,這也是制約企業加大投入的卡點堵點。相關投入涉及數據采集軟硬件、數據清洗和處理、數據標注、數據治理和質量管理、數據基礎設施建設、數據合規和安全等多環節,成本支出較高。
穩步推進高質量數據集建設
習近平總書記指出“人工智能是引領這一輪科技革命和產業變革的戰略性技術,具有溢出帶動性很強的‘頭雁’效應”[11],強調加快發展新一代人工智能是事關我國能否抓住新一輪科技革命和產業變革機遇的戰略問題[12]。把握世界科技發展大勢,我們需深刻認識高質量數據集建設對牢牢掌握人工智能發展和治理主動權的重大意義。堅持立足當前與著眼長遠相結合、目標導向與問題導向相結合、市場主導與政府引導相結合的發展原則,確保從長遠謀篇布局,分階段分主次有序推進,充分調動社會各方資源共同參與高質量數據集建設,持續釋放數據要素價值。
立足當前,需發揮政策撬動作用,面向人工智能模型開發訓練需求,綜合并推定標準、立標桿、造場景、增投入等政策工具。中短期階段應突出高質量數據集的技術屬性,聚焦人工智能模型開發訓練對數據集在大規模、多模態、人工智能就緒、高價值應用、高技術含量等方面的要求,按照國家數據局等部門對于高質量數據集建設的系列工作部署,以落實“人工智能+”行動為牽引,遵循急用先行、分類推進、合理使用的工作原則,分類推動通識類、行業通用類、行業專用類高質量數據集供給體系建設,加快推動形成一批標志性成果,賦能行業高質量發展[13]。
其中,通識類高質量數據集是通用大模型能力提升的基礎,需統籌政府部門、科研機構、開源社區及平臺企業協同構建,著力提升自然語言處理、計算機視覺、語音識別等技術能力,快速形成有利于公共數據跨行業融合創新應用的示范場景。行業通識數據是行業大模型訓練的基底,具有高度針對性和專業性,聚焦特定行業的特有知識、術語、場景和業務流程等信息,需以地方和行業優秀數據集案例為引領,加大先行先試的支持力度。行業專業數據是企業推動行業大模型應用、部署私域模型能力的底座,通常包含行業企業內部業務流程、用戶行為、產品信息等關鍵信息,具有針對性和定制化等特征。可探索由政府、園區等面向企業尤其是中小微企業發放補貼券等模式,支持企業購買數據產品服務,參與重點領域行業數據集建設,分擔企業成本,提高企業參與積極性。此外,深刻認識高質量數據集建設工作的系統性、復雜性和長期性,持之以恒加強高質量數據集系統構建能力,持續提升行業數據集管理能力、開發維護能力、質量控制能力。
著眼長遠,還需發揮市場在數據要素資源配置中的決定性作用,以日臻完備的數據基礎制度體系,持續激發數據要素價值釋放。長期發展需回歸高質量數據集的經濟屬性,強化高質量數據集的高市場價值特征,以釋放數據要素價值為目標,發揮經營主體建設高質量數據集、促進數據要素價值化進程中的主觀能動性和主導作用。
在“數據二十條”[14]搭建的數據基礎制度“四梁八柱”基礎上,持續推進數據持有權、使用權、經營權的數據產權結構性分置制度的宣貫落實,并在實踐中持續完善,著力破解經營主體獲取優質數據源的卡點堵點。多措并舉支持數據采集加工服務、專業數據產品服務、數據流通及其他專業服務類數據企業做大做強。立足數據產業發展初期呈現的高成長性、高投入、高場景依賴、高政策牽引和數據要素密集、智力資源密集等“四高兩密”特征,加大財稅金融扶持力度,培育形成大中小微企業協同、國央企和民營企業互補、多類型數據流通交易服務機構并進的多層次經營主體發展生態,推動高質量數據集建設上下游產業鏈條做長、做特、做優、做強。健全數據要素價值實現機制,積極探索適配高質量數據集有效投資、支撐可持續發展的商業模式和運營模式。建立標準化的數據集產品與質量評估體系,完善價格發現機制并穩定市場預期,建立多樣化、市場化的數據集定價機制,打消經營主體建設高質量數據集的“畏難情緒”,堅定不移增強企業“投資于數”動力和信心。
注釋
[1][2][11]中共中央黨史和文獻研究院編:《習近平關于網絡強國論述摘編》,北京:中央文獻出版社,2021年,第134頁、第132頁、第119頁。
[3]《中華人民共和國國民經濟和社會發展第十五個五年規劃綱要》,《人民日報》,2026年3月14日,第1版。
[4]樊威、燕江依、李蓀等:《高質量數據集開源生態比較與我國發展建議》,《數字化轉型》,2026年第3期,第15—26頁。
[5]楊輝、杜瀟霖、王鋒等:《高質量數據集標準體系構造研究》,《質量與認證》,2025年第12期,第38—40頁。
[6]程樂:《我國高質量場景數據集的供給現狀與發展策略》,《人民論壇》,2025年第5期,第68—72頁。
[7]《〈高質量數據集建設指引〉發布》,國家數據局網站,2025年8月30日。
[8]張曉林:《“人工智能+”背景下的高質量數據集建設:圖書館的機遇與挑戰》,《中國圖書館學報》,2025年第6期,第4—17頁。
[9]《我國建成高質量數據集超10萬個,規模超890PB》,新華網,2025年12月30日。
[10]《我國算力總規模居全球第二》,新華網,2025年8月15日。
[12]《習近平在中共中央政治局第九次集體學習時強調 加強領導做好規劃明確任務夯實基礎 推動我國新一代人工智能健康發展》,《人民日報》,2018年11月1日,第1版。
[13]魏亮:《推動高質量數據集建設,加快實施“人工智能+”行動》,國家數據局網站,2025年3月4日。
[14]《中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見》,中國政府網,2022年12月19日。
責編:劉 明/美編:石 玉