近期,以“数智互联·产业蝶变”为主题的2025行业先锋论坛在上海交通大学安泰经济与管理学院举行。上海库帕思科技有限公司首席执行官黄海清在论坛上围绕主题《大模型时代下高质量语料数据的研究及趋势》作了精彩分享。
点击观看演讲视频
“语料”一词在近一两年风靡起来,它实际上是一个语言学的概念,语料就是语言的材料,众多语言材料集合构成语料库。在大模型时代下,可以通过大模型直接训练和推理的数据我们称之为语料。大模型发展到现在,算力与算法固然重要,但未来,高质量数据集才是制约大模型发展水平、决定其优劣的关键因素。
一、大模型发展趋势研判及库帕思战略定位
1.1大模型发展趋势研判
百模大战基模数量会变成10模以内。2023年百模大战后,除了BAT、华为、字节以外,已经从人工智能“四小龙”发展到现在的大模型“六小虎”,其中三小虎在上海,三小虎在北京。
千帆竞发的行业垂类模型是主赛道。未来大模型主要战场应该在千行百业、千帆竞发的行业垂类大模型。根据调研,我们发现目前在全国已经有大概400家行业垂类大模型公司,预测到2025年底会超过一千家。
Scaling Law 规则速度开始减速。随着算力的增强、数据量的扩充以及模型参数的增多,模型能够实现自动化学习,从量变到质变,涌现出更多能力。但现在速度开始放缓了,一方面因为算力提升受限,另一方面则是因为缺少高质量数据。
2B(面向企业端)市场是盈利模式的主要探索方向。为企业和政府服务的2B市场将会成为行业大模型未来最主要的赛道,但目前为止还没有形成成熟的商业模式,仍有待探索。
从大语言模型向多模态大模型演变。从2023年开始,Chat GPT大语言模型开始在往多模态大语言模型发展,多模态相对于大模型而言,就像人从只用语言沟通到将眼耳鼻舌声音五官全部调动起来的这样一个演变趋势。
大模型时代将往AI for Data方向转换。人工智能三要素分别是语料、算力和算法,在其发展过程中面临着多种挑战。相较于算力、算法上的差距,我们觉得在语料数据算料这一块,中国更有机会实现换道超车。
1.2库帕思愿景使命
基于此背景,陈吉宁书记去年在上海率先牵头成立了库帕思,作为一家语料公司,意在解决缺少方法论、成本高、劳动密集型等数据产业问题,降低语料成本,提供高质量的,具备鲜活度、真实性、大样本、完整性、多样性、高知识密度的语料数据服务,让大模型触手可及。
二、大模型语料建设方法论
2.1基于世界知识体系的语料魔方
语料数据到底怎么构建?在之前数据语料构建是没有方法论的,当下我们正携手上海图书馆以及众多高校,基于世界知识体系来搭建方法论。在未来,行业语料库、大模型以及机模所需的数据语料,都会被封装好,就像图书馆里的一个个小抽屉,搭配智能导引,能直接提供给用户,无需其操心,这便是首套基于世界知识体系的构建方法。
2.2多维度价值对齐的语料体系
伦理价值观非常重要,但光有德有伦理是远远不够的,为此我们推出了人工智能价值对齐“五有”体系,包括有德、有趣、有品、有序和有用五个方面,已经成为国家数据集基石语料库建设标准。大模型要实现良好发展,语料数据必须具备共情能力,并且要有丰富的知识含量,有趣性在语料中也极为关键。有品代表要有内容,要将中国社会主义优秀价值观、中华文明以及中华元素融入语料,通过大模型带向全球,同时还要把全球其他先进文明都放进来。有序则是指不能涉黄、涉政、涉恐,有用则是要保证数据的安全、隐私等等。
2.3基于三个同心圆的行业语料汇聚
行业垂类大模型会是未来大模型领域的主战场,为此我们提出“三个同心圆”方法论。利用“三个同心圆”,能够将世界通识、行业知识、专业知识中80%的语料数据标准化,并一次性做好。像与金融机构合作的内部支付数据这类独有的,通过私有化部署,配合工具链平台,就能将整体数据用于训练、微调与推理。基于此方法论,能助力行业语料库建设,推动中国大模型发展。
三、打造国际领先的语料工具链平台
在人工智能时代和大模型时代,用几万人工去标注已经不合时宜,为此我们提出采用AI自动标注与清洗的理念,打造“采、洗、标、测、用”工具链平台,解放人工进行标注的困境。通过自动算子、标注算子和清洗算子实现标注与清洗工作,聚焦高效率的采集、更智能的清洗、更精准的标注、更科学的测试,更个性的应用,极大提升工作效率与质量。
通过发挥语料力量,我们希望能够助力和赋能数据服务行业,推动行业发展壮大,促进大模型产业加速协同发展。
*本文根据嘉宾的演讲内容整理
2025年1月20日,安泰EE学员参访上海库帕思科技有限公司↑
课程咨询
公开课:孙老师 021-52301088
政府、企业定制:李老师 021-52301043
阅读更多
关注“交大安泰高管教育”
热门跟贴