國家數據局今日正式發佈《關於推進行業高質量數據集建設行動的實施方案》,標誌著中國在數據要素賦能人工智能發展上邁出了關鍵一步。這是國家層面首次針對AI數據底座作出的系統性部署,旨在解決當前高質量數據集供給不足、流通不暢等制約產業發展的核心瓶頸。
方案緊扣行業高質量數據集的供給、流通、應用三大關鍵環節,明確部署了六大專項行動。在數據供給端,方案提出要面向人工智能的廣泛應用需求,持續推進文本、圖像、音視頻等多模態高質量數據集的建設,確保數據資源的多樣性與豐富度。這直接回應了當前大模型訓練對跨模態數據日益增長的需求。
尤為值得關注的是,方案特別聚焦了AI領域的前沿方向。它明確要求加快推進面向智能體、具身智能和世界模型等重點領域的數據集建設。這意味著政策層不僅著眼於當下的生成式AI,更將目光投向了能夠與環境交互、具備物理世界理解能力的下一代AI形態所需的數據基礎設施。此舉有望為國內企業在這些前沿賽道的研發提供關鍵的數據資源支撐。
在產業落地層面,方案提出了一項具有探索性的舉措:引導具備條件的地區因地制宜,開展數據標註創新試驗區建設。數據標註是連接原始數據與可用訓練樣本的關鍵工序,長期面臨成本高、標準不一等挑戰。通過設立創新試驗區,可以探索更高效、更規範的標註模式與產業生態,推動數據標註從勞動密集型向技術驅動型轉變。
從產業影響來看,這份方案為AI產業鏈上游的數據服務商、數據標註企業以及擁有高質量行業數據的傳統企業帶來了明確的政策利好。它清晰地界定了數據作為AI發展核心要素的戰略地位,並提供了行動指南。對於正在訓練大模型的科技公司而言,更豐富、更規範的高質量數據集供給,將直接降低其數據採集與處理成本,加速模型迭代。
此次部署並非孤立事件。近年來,國家已陸續出臺“數據二十條”、成立國家數據局,持續完善數據要素市場的頂層設計。此次《實施方案》可以視為數據要素戰略在人工智能這一具體應用領域的深化與落地,它將抽象的“數據要素化”概念,轉化為了可執行的建設任務。
整體而言,這份方案為國內AI產業的長期發展注入了確定性。它通過系統性地解決數據源頭的問題,旨在構建一個自主可控、高質量、高效率的AI數據供應鏈,為後續模型創新和應用爆發打下更堅實的底座。