5月25日,主题为“数据要素赋能新质生产力”的第七届数字中国建设峰会数字福建分论坛在福州举办。“星光中国芯工程”总指挥、中国工程院院士邓中翰应邀出席,发表了“大模型时代的数据要素与应用”的主题演讲,他分享了“数据要素与应用的必要性,建设我国数据要素与人工智能大模型的着力点,数据合规开放共享的政策指导和措施,以及大模型时代下的数据安全保护问题等一系列具有重要指导性和建设性的观点。

打开网易新闻 查看精彩图片

一、数据要素与应用的必要性

大模型技术发展日新月异,探索空间从二维变成了三维,从文字生成衍生到视频生成,海量数据成为大模型训练的刚性需求,优质的海量数据成为大模型公司争抢的资源。中国的数据优势在于依托庞大的人口数量、完善的网络和信息基础设施和全球最大的生产体系,构建了全世界最大规模、最丰富、最多样性数据。

二、建设我国数据要素与人工智能大模型的着力点

近年来,国家相关部门发布“数据要素X”三年行动计划,提出12个重点领域,其中,科技创新部分:“支持开展人工智能大模型开发和训练”,从政策上为数据要素与人工智能大模型应用提供了政策指引。

邓中翰院士指出:海量数据是基础优势,要实现从数据到数据要素的转变。

1.要将原始未经加工或分析的信息处理、整合成具有经济价值的、可被机器读取并可供社会化再利用的数据资源。

2.对由组织合法拥有或控制的数据资源进行主动管理,形成能够被广泛应用的具备经济意义的数据资产。

3.数据要素作为新型的生产要素,是参与到社会生产经营活动中,为所有者或使用者带来经济效益的数据资产。

在应用领域,邓中翰院士认为,专业大模型对于算力和数据要求低于通用大模型,市场化能力更强,建议国内企业后续可投入到专业大模型研发中,赋能各行业发展。

三、数据开放的政策指导和措施

针对公共数据开放性有限,企业间数据流动性差等问题,相关部门在“数据要素×”三年行动计划中指出:“要加大公共数据资源供给,在重点领域、相关区域组织开展公共数据合规开放共享运营,探索部省协同的公共数据合规开放共享机制。引导企业开放数据,鼓励市场力量挖掘商业数据价值,支持社会数据融合创新应用。”

邓中翰院士对公共数据的合规开放共享问题分享了自己的观点:要实现公共数据合规共享运营机制还是很多具体的问题和困难。首先是收费模式的探索。公共数据的资金来源是财政,理论上应该有条件免费使用公共数据。但要让数据成为“能够被识别和广泛应用的具备经济意义的数据资产”,还有很多的额外投入和具体工作,解决不好就会影响各部门合规开放共享数据的积极性。所以需要建立起面向企业和产业发展的公共数据有偿使用机制,福建省是数字中国的先行省份,建议在这方面多做探索。

四、大模型时代下的数据安全保护问题

针对数据安全保护问题,邓中翰院士提出:

首先,应落实数据分类分级保护制度,在确定涉及隐私和敏感信息范围的基础上,对包括视频等在内的数据进行脱敏,以避免敏感信息在大模型训练过程中被泄露。

其次,应深化对同态加密等技术的研究,使之能与大模型训练结合。在视频智能分析领域,已应用于人脸识别技术方案,可在不泄露人脸信息的情况下进行比对;后续可考虑怎样在大模型上应用。

再次,应探索可信执行环境在大模型训练领域的应用。可信执行环境提供隔离计算空间,可以确保数据在处理过程中的安全性和隐私性。对于企业间的训练数据共享非常重要。

最后,邓中翰院士表示:我们正在探索一条有中国特色的数据要素应用与安全平衡发展的道路,为数据要素在人工智能大模型时代充分发挥其效能保驾护航。

打开网易新闻 查看精彩图片

来源:上海证券报·中国证券网