在當今數字化時代,人工智能技術的迅猛發展正深刻改變著各個行業的格局。數據作為人工智能的核心要素,其重要性日益凸顯。國家發改委等六部門在2024年12月30日發布的《關于促進數據產業高質量發展的指導意見》,明確提出:“支持企業面向人工智能應用創新,開發高質量數據集,大力發展“數據即服務”“知識即服務”“模型即服務”等新業態。”這一政策導向為數據產業的發展指明了方向,也為企業提供了新的發展機遇。
一、數據集定義與分類
數據集是由標準化數據元素組成的集合,通常以表格、數組或特定格式存儲,便于檢索和分析。其核心要素包括數據元素、變量與模式、元數據。從數據類型來看,可分為結構化數據集、非結構化數據集、跨模態數據集。結構化數據集具有清晰的數據結構,便于計算機處理和分析;非結構化數據集則包括文本、圖像、音頻、視頻等多種形式,蘊含著豐富的信息;跨模態數據集則融合了多種類型的數據,能夠提供更全面的視角。
數據集的應用場景廣泛,涵蓋人工智能訓練、行業分析、政策協同等多個領域。在人工智能訓練中,高質量的數據集是訓練出高性能模型的關鍵;在行業分析中,數據集能夠為企業提供有價值的市場洞察和決策支持;在政策協同方面,數據集有助于政府更好地了解行業動態,制定更科學的政策。
根據不同的應用場景和用戶需求,數據集可分為通識數據集、行業通識數據集和行業專識數據集。
通識數據集包含面向社會公眾、無需專業背景即可理解的通用知識,主要用于支撐通用模型落地應用。例如,一些常見的自然語言處理數據集,包含了大量的文本數據,可用于訓練通用的語言模型。
行業通識數據集包含面向行業從業人員、需要一定專業背景才能理解的行業領域通用知識,主要用于支撐行業模型落地應用。比如,在醫療領域,行業通識數據集可能包含大量的醫學文獻、病例數據等,用于訓練醫療行業模型。
行業專識數據集包含面向特定業務場景相關人員、需要較深的專業背景才能理解的行業領域專業知識,主要用于支撐業務場景模型落地應用。例如,在金融風控領域,行業專識數據集可能包含特定的風險評估指標、歷史風險案例等,用于訓練針對該業務場景的模型。
二、數據集建設與價值評價

高質量數據集建設是數據產業發展的基礎,強調完整性、準確性、規范性、均衡性、及時性、一致性、相關性等較高標準。完整性要求數據集包含足夠多的數據樣本,能夠覆蓋各種可能的情況;準確性確保數據的質量可靠,沒有錯誤或噪聲;規范性要求數據的格式、結構等符合統一的標準,便于處理和分析;均衡性保證數據在不同類別或場景下的分布合理,避免出現偏差;及時性要求數據能夠及時更新,反映最新的情況;一致性確保數據在不同來源或不同時間點上保持一致;相關性要求數據與特定的應用場景或問題密切相關,能夠提供有價值的信息。
數據集價值評價是一個多維度的過程,包括數據采集、標注清洗、整合發布、維護等環節。在數據采集階段,需要評估數據的來源、采集方法和采集效率;標注清洗環節則關注標注的準確性和清洗的效果;整合發布要考慮數據的整合方式和發布的渠道;維護環節則涉及數據的更新、管理和安全保障。此外,數據即服務、分析能力、模型即服務、計算能力、知識即服務、學習能力等方面也是評價數據集價值的重要維度。數據即服務強調數據的采集、整合、發布、維護等環節的服務化,能夠為用戶提供便捷的數據訪問和使用方式;分析能力評估數據集支持數據分析的能力,包括數據分析的準確性、效率和可解釋性;模型即服務關注通過數據提供模型服務的能力,如支持人工智能訓練等,評價模型的性能、可擴展性和易用性;計算能力考察數據處理和計算的基礎設施,如計算資源的充足性、計算效率等;知識即服務強調通過數據提供知識服務的能力,評估知識提取的準確性、知識的豐富性和實用性;學習能力則關注數據集支持模型持續學習和優化的能力,評價學習算法的效果和效率。
三、高質量數據集開發
國家政策積極推動高質量數據集建設。2025年2月19日,國家數據局在北京召開高質量數據集建設工作啟動會,旨在推動高質量數據集建設,高效賦能行業發展。這一舉措體現了國家對高質量數據集建設的重視,為企業開發高質量數據集提供了政策支持和指導。
中央企業在高質量數據集開發方面取得了優秀成果,首批有10余個行業的30項央企高質量數據集建設成果。這些成果涵蓋了多個領域,為行業發展提供了有力的數據支持。例如,在能源領域,央企可能開發了關于能源生產、消費、價格等方面的數據集,為能源行業的決策和規劃提供依據;在交通領域,可能開發了交通流量、事故數據等數據集,用于優化交通管理和提升交通效率。
四、數據即服務、知識即服務、模型即服務
數據即服務是高質量數據集建設的一個重要方面,強調數據的采集、整合、發布、維護等環節的服務化。在數據即服務的模式下,企業可以將數據作為一種服務提供給用戶,用戶無需關心數據的存儲、處理等細節,只需通過簡單的接口或平臺即可獲取所需的數據。例如,一些數據服務提供商提供了豐富的API接口,用戶可以通過調用這些接口獲取各種類型的數據,如天氣數據、金融數據等。數據即服務不僅提高了數據的可訪問性和可用性,還降低了用戶使用數據的門檻和成本。
知識即服務作為高質量數據集建設的一個評價維度,強調通過數據提供知識服務的能力。知識即服務是將數據中的信息進行提煉、整合和加工,形成有價值的知識,并以服務的形式提供給用戶。例如,在醫療領域,通過對大量的醫學文獻、病例數據等進行分析和挖掘,可以提取出疾病的診斷方法、治療方案等知識,為醫生提供決策支持。知識即服務能夠提升數據的附加值,幫助用戶更好地理解和應用數據。
模型即服務同樣作為高質量數據集建設的一個評價維度,提到通過數據提供模型服務的能力,如支持人工智能訓練等。模型即服務是將訓練好的模型以服務的形式提供給用戶,用戶無需自己訓練模型,只需提供輸入數據,即可獲得模型的輸出結果。例如,在圖像識別領域,一些企業提供了圖像識別模型的服務,用戶可以將圖像上傳到平臺,平臺返回圖像中的物體識別結果。模型即服務能夠降低用戶使用人工智能技術的門檻,促進人工智能技術的普及和應用。
五、具體數據集示例
體外診斷產品招采動態數據集是一個典型的數據集示例。該數據集提供高頻次、多管線、高可靠的體外診斷產品采購商機動態信息。其基本信息包括產品名稱、面向對象、數據來源、數據主題、產品類型、數據專區、更新頻率、存儲大小等。輸入輸出字段詳細列出了地區、醫院、品類、招采預期、采購規模、信息來源等輸入字段,以及統計例數、品類查詢、日程計劃、商機定價等輸出字段。這個數據集可以為體外診斷產品的生產企業、經銷商等提供有價值的市場信息,幫助他們了解市場需求、制定營銷策略。
呼吸道診斷產品管線注冊研發數據集是另一個重要的數據集示例。該數據集依據呼吸道診斷產品從試制樣品到獲批等多個流程節點過程中需要的模板、規則、指標等生成注冊過程小模型,用以人工智能場景訓練和知識服務。其基本信息包括產品名稱、面向對象、數據來源、數據主題、產品類型、數據專區、更新頻率、存儲大小等。輸入輸出字段詳細列出了產品管線、樣品批次、抽樣編號、注冊申請、初審材料、現場核查、現場抽樣、樣品復檢、資料評審、批準注冊等輸入字段,以及流程總覽、節點值、規則值、模板樣例等輸出字段。這個數據集可以為呼吸道診斷產品的研發企業提供注冊流程的指導和支持,提高注冊效率和質量。
來源:數據資產最前線公眾號