打开网易新闻 查看精彩图片

中经记者 索寒雪 北京报道

2026年4月29日,国家数据集管理服务平台正式发布并启动试运行,这标志着我国高质量数据集建设工作迈入集约化管理新阶段。

国家数据发展研究院副院长袁军在接受《中国经营报》记者采访时表示,当前,人工智能正处于从“可用”迈向“好用”的关键跃升期,高质量数据集作为大模型训练的“基石”,其供给规模和质量直接决定了人工智能创新高度和产业落地深度。

三大痛点

据了解,国家数据集管理服务平台由国家数据局指导、国家数据发展研究院建设和运营,以数据集目录汇聚为基础,构建“物理分散、逻辑集中”的数据集管理体系,提供覆盖数据集全生命周期的公共服务能力,进一步促进高质量数据集有效供给,繁荣产业生态。

目前,平台已开放供需发布、全域检索、凭证申领等基本功能,并与国家数据基础设施以及安徽省等地方平台完成对接。

截至发布当日,平台已认证供需主体200余家,发布数据集1000余个。

国家数据局统计显示,截至2025年年底,全国已建成的高质量数据集超过10万个,总量超过890PB;今年3月,我国日均Token调用量已超过140万亿。

袁军表示,我国高质量数据集建设客观上仍面临三大痛点:一是建设主体分散,数据管理部门难以全面掌握资源底数与建设进展;二是供给侧信息不对称,容易出现重复建设、质量参差不齐等问题;三是需求侧获取成本高、周期长,制约技术创新效率。

在此背景下,为进一步强化高质量数据集建设的技术支撑,国家数据局启动了国家数据集管理服务平台建设。

国家级枢纽

袁军介绍,该平台分三期建设。一期聚焦当前最迫切的数据集目录汇聚等需求,已实现供需发布、全域检索、凭证申领等基本功能,并与国家数据基础设施完成对接,目前一期建设已如期完成。二期计划2026年6月上线,将增加数据集建设进展监测等管理功能,并拓展质量评测、权益激励、互动交流等服务,同时扩大用户范围。三期计划2026年年底完成,将结合数据产权制度、价格生成机制等政策和研究成果,丰富数据集图谱等管理功能,提供工具链、模型应用、定价评估等服务。

下一步,国家数据局将指导国家数据发展研究院持续优化平台功能,提升服务质量,完善建设情况监测、质量管理、权益激励等服务能力,深化与地方和行业相关平台对接联动,更好满足各类主体的多元化需求,支撑全国高质量数据集建设,赋能人工智能创新发展。

袁军表示,到2026年年底,该平台将成为数据要素赋能人工智能创新发展的国家级枢纽。

(编辑:郝成 审核:朱紫云 校对:颜京宁)