(图片来源:摄图网)
(记者 陈洲)近日,由中国通信标准化协会主办、中国信通院承办的2024 OSCAR开源产业大会在北京召开,会上发布了《2024央国企开源项目典型实践》,中国电信天翼云科技有限公司打造的“TeleDB分布式数据库在开源社区的特性贡献案例”成功入选。这不仅是对天翼云TeleDB数据库技术创新性的权威认可,更提升了天翼云TeleDB数据库在开源领域的行业认可度和影响力。
数据开源为何如此重要?
数据开源是指将数据集的访问权限开放给公众,允许任何人查看、分析和重用数据,通常是通过互联网进行。数据开源的意义在于其对社会经济、科技创新和数字经济发展的深远影响。
从社会经济角度来看,数据开源打破了大型企业或机构对数据的垄断。小型企业和创业公司可以获取到开源数据,这使得它们能够在一个相对公平的起跑线上与大型企业竞争。此外,开源的数据可以被广泛应用于各个行业,减少了数据重复收集的成本。例如,政府部门开源的一些公共数据,如人口统计数据、地理信息数据等,相关单位可直接进行相关的业务开发或社会服务,整体上提升了社会治理的效率。
从科技创新角度看,科研人员和开发者可以基于开源数据快速开展研究和开发工作。以人工智能领域为例,许多开源的图像数据集、文本数据集等为研究人员提供了丰富的素材,他们可以在这些开源数据的基础上进行算法开发和模型训练,不必从头开始收集和整理数据。这大大缩短了研究周期,加速了科技创新的速度。例如,在医学研究领域,不同国家的科研团队可以利用开源的基因数据,共同探索疾病的基因根源,通过知识共享和合作,有望取得更多突破性的科研成果。
从数字经济发展角度看,开源数据为数字产业生态中的各个环节提供了资源。从数据采集、存储、分析到应用开发等环节,企业可以基于开源数据构建自己的业务模式。例如,在大数据分析产业中,开源数据可以作为基础素材,催生一系列围绕数据加工、数据可视化等相关的创业公司和业务模式,丰富数字经济的产业生态。当数据开源后,更多的人可以对数据进行挖掘和利用,不同的视角和应用场景会让数据的价值得到更充分的体现。从而推动数字经济的发展。
中国电信数据开源促应用发展
就国内数据市场而言,政府数据资源占全国数据资源比重超过3/4,开放规模不足美国的10%,个人和企业可资利用的规模更是不及美国的7% 。因此,具有私域属性的行业数据重要性就更为凸显。拥有庞大政企客户资源池的中国电信拥有这方面的先天优势。
提到数据开源,在2024年的年初,中国电信就开源了百亿级星辰语义大模型-7B,成为第一家开源大模型的央企。同时开源的还有超1T的高质量清洗基础数据。前不久,中国电信又正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型TeleChat2-115B。
在数据开源的具体实施过程中,中国电信特别注重应用层面的创新与发展。
在面向产业应用过程中,为了增强模型的商用性,星辰语义大模型在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强技术、多轮知识记忆和强化技术等手段,幻觉率下降了40%。
在价值对齐上,星辰语义大模型也表现突出。《生成式人工智能服务管理办法(征求意见稿)》明确要求,利用生成式AI生成的内容应当体现社会主义核心价值观。为此,在对齐偏好方向上,星辰语义大模型对指令微调阶段收集的大量指令采用向量化+聚类的方式,将指令分为不同的簇类,并从各个簇类中按照一定比例抽取具有代表性的指令集,再由标注人员构建相似的指令。不仅可以较为全面地覆盖人类指令,还能保证与微调阶段数据具有相同的数据分布,更有利于模型在对齐阶段的训练。
值得一提的是,中国电信还联合头部生态机构,凭借在各行业深耕多年的优势和经验,依托基础大模型,构建了涵盖教育、政务、应急等20多个行业大模型,覆盖全行业500多个应用场景,有效满足了各行各业对人工智能技术的多样化需求。
通过提供丰富的数据资源和强大的技术支持,中国电信帮助各类企业更好地挖掘数据价值,真正实现业务创新和转型升级。
将持续深化数据开源工作
有数据显示,开源AI模型正走在超越专有模型的路上。如今,中国电信的数据开源的种子已播下,接下来便是平整土地,持续深化数据开源的工作,为土地“施肥”,静候百花齐放。
中国电信的数据开源计划和大模型能力的不断迭代,标志着中国电信在人工智能领域的战略布局和对行业发展趋势的积极响应。通过这些措施,中国电信不仅提升了自身的技术竞争力,也为推动整个行业的创新和数字化转型作出了贡献。
如今,作为最早布局并首先开源大模型的央企机构,中国电信正通过构建高质量数据集、成立专业公司和平台、加速数据要素能力体系建设、跨行业数据结合、数据平台和产品开发等等方式,为数据的开源夯实了发展基础。
中国电信还不断加速AI创新和应用落地,积极通过开源推动技术创新发展,持续加快前沿技术向产业落地的跃迁。
热门跟贴