为提升高质量语料数据供给、推动大模型技术高质量发展,10月16日,由中国大模型语料数据联盟(以下称“联盟”)主办的中国大模型语料数据联盟·开放日第二场活动暨《大模型数据资源地图和治理路径》研讨会在上海人工智能实验室成功举行。

打开网易新闻 查看精彩图片

上海市经信委信息化推进处副处长山栋明致辞表示,大模型发展到现阶段,不仅需要关注参数优化、模型大小,更要关注生态和应用。大模型实践需求日渐明显,数据二十条、《企业数据资源相关会计处理暂行规定》等数据政策陆续推出,将为语料数据供给提供技术和价值对齐等角度的作用。以语料数据持续推动大模型发展,要做宽语料数据宽度、提升深度、发力浓度,增加数据多样性,完善语料库运营视角下的分类分级,实现高质量供给与高质量需求的适配。

活动上,中国电信股份有限公司、中国信息通信研究院、上海证券报等9家第三批新成员单位加入中国大模型语料数据联盟,山栋明及上海数据交易所副总经理卢勇为联盟新成员颁发入盟纪念证书。今年9月,上海数交所作为第二批成员单位加入联盟。随着联盟朋友圈的不断扩大,上海数交所将与联盟企业加强交流合作,建设市场生态,共同助推大模型技术高质量发展。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

主题演讲环节,上海数交所做题为“建设高质量语料库推动人工智能大模型产业发展”的主题演讲,介绍上海数交所在强化大模型语料数据高质量供给方面的创新实践。

今年7月7日,上海数交所正式上线语料库,推进高质量语料库建设。截至目前,上海数交所累计挂牌1600多个数据产品,其中语料数据规模超过10TB,包含文本、音频、图像等多模态,覆盖金融、交通运输、医疗等领域。

打开网易新闻 查看精彩图片

当前,金融、政务、文献出版等行业领域积累了大量场景化数据资源,但分布分散,未形成清晰的可用于大模型训练的数据集资源地图,且缺乏有效治理手段,难以达到可用于模型训练的“安全合规高效流通”的数据质量要求。为破解人工智能发展“寻数无门、数不保质”的难题,今年9月中国信息通信研究院(以下简称“中国信通院”)牵头正式启动《大模型数据资源地图和治理路径》系列报告(以下简称“报告”)编制工作。

活动上,围绕报告研究框架和时间节点要求,中国信通院云大所介绍报告编制工作情况。该报告梳理金融、政务、文献出版、医疗、能源、汽车等行业领域的数据资源分别情况,明确行业高质量数据集的定义和特征,绘制行业高质量数据来源地图、通用数据供给地图和场景数据供给地图,开展行业高质量数据集治理方法研究,总结行业高质量数据集应用场景案例。

上海数交所积极参与报告编制工作,这是继启动语料库建设后助力人工智能产业发展的又一举措。上海数交所助力体系化构建大模型数据资源地图,为企业提供可参考的治理路径,丰富高质量语料数据供给,为推动人工智能大模型产业发展贡献力量。