国家数据局首次系统部署AI数据集建设

国家数据局发布方案，围绕AI需求推进多模态数据集建设，聚焦智能体、具身智能等方向。

国家数据局今日正式发布《关于推进行业高质量数据集建设行动的实施方案》，标志着中国在数据要素赋能人工智能发展上迈出了关键一步。这是国家层面首次针对AI数据底座作出的系统性部署，旨在解决当前高质量数据集供给不足、流通不畅等制约产业发展的核心瓶颈。

方案紧扣行业高质量数据集的供给、流通、应用三大关键环节，明确部署了六大专项行动。在数据供给端，方案提出要面向人工智能的广泛应用需求，持续推进文本、图像、音视频等多模态高质量数据集的建设，确保数据资源的多样性与丰富度。这直接回应了当前大模型训练对跨模态数据日益增长的需求。

尤为值得关注的是，方案特别聚焦了AI领域的前沿方向。它明确要求加快推进面向智能体、具身智能和世界模型等重点领域的数据集建设。这意味着政策层不仅着眼于当下的生成式AI，更将目光投向了能够与环境交互、具备物理世界理解能力的下一代AI形态所需的数据基础设施。此举有望为国内企业在这些前沿赛道的研发提供关键的数据资源支撑。

在产业落地层面，方案提出了一项具有探索性的举措：引导具备条件的地区因地制宜，开展数据标注创新试验区建设。数据标注是连接原始数据与可用训练样本的关键工序，长期面临成本高、标准不一等挑战。通过设立创新试验区，可以探索更高效、更规范的标注模式与产业生态，推动数据标注从劳动密集型向技术驱动型转变。

从产业影响来看，这份方案为AI产业链上游的数据服务商、数据标注企业以及拥有高质量行业数据的传统企业带来了明确的政策利好。它清晰地界定了数据作为AI发展核心要素的战略地位，并提供了行动指南。对于正在训练大模型的科技公司而言，更丰富、更规范的高质量数据集供给，将直接降低其数据采集与处理成本，加速模型迭代。

此次部署并非孤立事件。近年来，国家已陆续出台“数据二十条”、成立国家数据局，持续完善数据要素市场的顶层设计。此次《实施方案》可以视为数据要素战略在人工智能这一具体应用领域的深化与落地，它将抽象的“数据要素化”概念，转化为了可执行的建设任务。

整体而言，这份方案为国内AI产业的长期发展注入了确定性。它通过系统性地解决数据源头的问题，旨在构建一个自主可控、高质量、高效率的AI数据供应链，为后续模型创新和应用爆发打下更坚实的底座。

国家数据局首次系统部署AI数据集建设

延伸阅读

相关深度报道

相关每日新闻