2024 年 11 月 16 日,“2024第十三届中国智能产业高峰论坛暨中国人工智能学院院长与名师论坛”成功举办。在“人工智能产教专题论坛”上,科大讯飞副总裁、AI研究院执行院长、认知智能全国重点实验室副主任、CAAI Fellow王士进分享了《大模型技术进展和教育应用》的精彩演讲。
王士进副总裁
以下为演讲内容:
1 大模型技术进展
2022 年底,大模型在行业里引起巨大反响,掀起大模型的全新热潮。它不仅是技术上的进步,而且对科研、行业和产业都有很大帮助;既有技术创新,也有产业规模应用需求。
我国高度重视大模型的发展。习近平总书记就推进新型工业化作出重要指示,强调把高质量发展的要求贯穿新型工业化全过程,为中国式现代化构筑强大物质技术基础。中央经济工作会议强调要大力推进新型工业化,发展数字经济,加快推动人工智能发展,工业和信息化部持续在推动全国新型工业化会议上强调了大模型技术是最近几十年来具有颠覆性技术,会重塑整个产业的形态和竞争格局。此外, 2024 年 3 月《政府工作报告》提出要促进数字技术和实体经济深度融合,开展 “人工智能 +”行动。
目前大模型技术发展飞快,大模型技术各项能力都在快速进步。2024 年 5 月 14 日,OpenAI 发布了其最新的 GPT-4o,作为一个多模态模型仅使用一个模型同时支持文本、音频、图像视频的输入,以及文本、音频、图像的生成。其响应速度平均 320ms 内,全双工交互允许用户随时打断 AI 对话,能理解并处理多种模态的任意组合,并且精确理解用户的情感表达及需求。这是一个解决端到端处理的模型。传统技术在解决复杂场景问题时,通常采用任务分解的方式进行处理。比如,之前的口语同传需要经过语音识别,再经过机器翻译后语音合成,才能形成语音到语音之间的同传。但是,它会带来两个问题,首先整个系统时延较长,所以交互的友好性会变差;其次,系统识别的错误会级联扩大影响到机器翻译等环节。因此,随着深度学习技术的持续发展,应采用编码和表征统一的端到端处理方式,提升系统的智能化水平,满足更多场景的应用需求。
早期大模型只在文字层面上,如撰写或分析各类型文章等,涉及到逻辑推理、数理推理等层面上效果不理想。因为人在处理类似复杂问题时需要经过深入思考,而之前的大模型不会。2024 年 9 月 13 日,OpenAI 发布全新大模型 o1,在数学、代码、推理等复杂任务领域取得突破进展,解决了上述问题。
从技术上看,以 GPT-4 通用大模型为底座,GPT-4V 使用户能够指示 GPT-4 分析用户提供的图像输入;Whisper V3 提高语音识别的准确性,扩展了不同语言的支持范围;Sora 能根据文本描述生成长达 60 s 的视频;GPT-4o 实时对音频、视觉和文本进行推理生成文本、音频和图像的组合输出,大模型底座在持续地不断训练和提升,使在上层的应用变得越来越好。因此,大模型展现了巨大的可挖掘潜力,而通用大模型底座能力的进步是大模型发展的关键。
2讯飞星火大模型最新进展
讯飞星火大模型是国产大模型的缩影。在大模型出来之前,国内基本上有两条路线,一条路线是做预训练模型,模型尺寸大,但能力没有涌现,未能实现真正的统一表征和理解,只能加强一些自然语言处理的任务。另一条路线是研究行业小模型,如相关机构在教育、医疗、工业等领域开展了大量行业研究工作,直到有了 ChatGPT 后,大家发现把它们融合能发生很好的变化。
OpenAI 的技术路线是大模型研究的探索对象,但由于其没有明确的技术报告,且参数规模从千亿级到万亿级不断提升,使得研制之路充满了挑战。
以讯飞星火大模型研发历程为例,2023 年 5 月 6 日首次发布的讯飞星火 V1.0,具有七大核心能力;6 月 9 日发布的 V1.5,突破了开放式问答,多轮对话能力和数学能力再升级;8 月 15 日发布的 V2.0,突破了代码能力,多模态交互再升级;10 月 24 日发布的 V3.0,通用模型已对标 GPT-3.5(中文超越,英文相当)。2024 年 6 月 27 日发布的 V4.0,多项能力大幅提升,对标 GPT-4 Turbo;10 月 24 日发布的 V4.0 Turbo 已超越 GPT-4 Turbo,并实现了极速超拟人交互等能力。由上可以看到,我们大概半年完成一个大的能力提升,目前已经跟进并达到了目前的 GPT-4o 水平。
此外,讯飞星火大模型在部分主流机构评测体系中,从不同维度上对模型的能力进行了对比,取得了良好的表现成绩。
我们基于 2024 年高考、中考做了一些实验和对比,结果基本符合预期,即在文科上表现良好,如 60 分的作文,平均分能做到 51 分左右,偶尔可以做到 53、54 分;数学有一定差距,准确率只有 70% 左右。如果输入为照片而不是文本,系统的准确率则会降低。
目前,科大讯飞在国产平台上已经开展了大量工作。早期的算法验证工作主要基于原有的 A800 平台进行,但这显然不是长久之计。为此,我们与华为开展了战略合作,在国产算力平台上构建了从训练到推理的一体化软硬件框架。2023 年完成技术突破,8 月科大讯飞联合华为发布了星火一体机,同时基于国产算力的软硬件研究积累,与华为联合攻关大模型国产化算力底座核心难题,构建了国内首个支持万亿级浮点参数大模型训练的国产算力集群“飞星一号”平台,形成了超大模型训练算力集群优势,并于 10 月发布。自此基于“飞星一号”开展所有的模型训练工作。
但是,更强大的模型也伴随着更庞大的数据量和参数规模,面向整个集群的训练和智能化,各种新算法的适配都存在着新的困难。不仅是算法本身,也包含算法底层加速、算子、通信,以及如何进行分布式工作等挑战。因此,基于国产算力的大模型自主技术创新需要持续探索无人区。2024 年 10 月 24 日,科大讯飞与合肥大数据公司、华为联合启动“飞星二号”建设,并持续开展新模型、新算法的适配研究,智算集群规模实现从万卡到万 P 的跃迁,不断引领国产大模型底座的发展。
2023 年我们多语种语音技术获得了国家科技进步一等奖,在此基础上 2024 年 10 月发布的星火多语言大模型首批支持中英文之外的俄、日、阿、韩、法、西、葡、德语八个语种。
大模型同样带来感知技术发展的全新机会。现在有很多团队都在做类似工作,因为它对人工智能算法底层是一个范式突破,比如语音识别、合成这类单独的语音处理技术,可以打造成一个通用的语音大模型,它不仅可以做更多任务,而且在领域里效果比原来单独做还要更好,而且在任何领域里效果比原来做得更好。比如,语音合成提升韵律表现力和拟人度;语音识别突破复杂场景识别效果上限;多语种提升语料稀缺小语种效果;图文识别革新全场景效果与应用模式。基于大模型带来的技术变革,我们推出了下述三个大模型。
• 星火语音大模型。此模型基于星火大语言模型框架,结合讯飞多维度语音属性解耦表征预训练,发布即领先。在多语种语音识别方面,首批 37 个主流语种效果超过 OpenAI Whisper V3,同时具有超拟人的语音合成。
• 星火 OCR 大模型。在面向拍照和扫描等不同场景下的 OCR 需求时,传统技术路线通常采用针对不同环境研制不同模型的思路。当前基于通用大模型研发思路,采用统一建模的方法研制 OCR 大模型,不仅识别效果优于传统方法,也使得模型具有很强的泛化性,大幅降低了新场景适配的难度,提高了研发效率。
• 星火具身大模型。以人形机器人为代表的具身智能研究主要分为两个方面,一方面是机器人本体的硬件技术研究,当前已有较多机构开展此类研究;另一方面是机器人大脑技术研究,包括如何在开放环境里进行复杂任务拆解、寻找物体,以及通过强化学习泛化抓取和仿人行走等,科大讯飞在这些技术上均开展了探索性研究并积累了一定经验,后续将持续研发相关技术。
影响通用大模型在行业应用效果的关键因素主要有三个,分别是垂直模型、知识增强和智能体。
(1)用更少的算力和更高的效率,打造行业专属大模型。不同行业应用对于模型能力要求也有所不同,以自动驾驶分级为例,针对 L0、L1 和 L2 级别,面向通用场景、细分场景和特殊场景,先基于通用大模型进行二次预训练以及 SFT,再进行强化学习,在不同环节采用不同算法并加入不同语料,不断提升垂直模型性能。
(2)大模型幻觉问题会导致生成信息错误,进而严重影响其在教育、医疗、工业等行业的应用效果。目前缓解此类问题方式主要有两种,一种方式是采用知识增强技术,通过非结构化文档总结和提炼,提高结果准确率,结合溯源技术,使模型的每个输出结果都标注来源,提高模型输出结果的可验证性;另一种方式是将大模型与逻辑系统结合,例如通过大模型结合知识图谱可以大幅提高模型推理结果的准确性。
(3)智能体平台。大模型在实际应用场景中的表现效果还取决于模型对场景任务的理解能力,科大讯飞构建了星火智能体平台,首先对复杂任务进行理解和规划,再匹配相应的任务工具,打通互联网知识、内部知识等各种类型的知识信源,最后分步执行各类任务,最终完成具体场景的应用需求。
大模型应用的快速发展离不开生态建设,讯飞开放平台已开放 759 项 AI 产品及能力,总应用数超过 268.4 万,链接超 1000 万生态伙伴。科大讯飞积极探索大模型技术背景下的应用形式变化,讯飞星火大模型正在赋能教育、医疗、工业、汽车、办公和金融等千行百业,发挥应用价值,同时跟进大模型技术应用过程中的问题反馈,不断迭代升级,利用知识增强等方式改善模型性能。
3人工智能 + 教育
大模型是教育高质量发展的关键支撑技术,在基础教育中助力减负增效和五育并举,在高等教育中促进科研范式变革和创新人才培养。
3.1 减负增效
星火教师助手全面助力教师备授课减负,我们与中国教育科学研究院共同打造了基于生成式人工智能的教师助手,其中语文已经规模化应用。教师助手可以启发教学设计,使其效率提升了 56% 以上;辅助课件创编,如资源检索便捷度提升了 56% 以上;赋能日常工作,如将课件制作效率提升了 64% 以上;助力教师成长,使教师的好评率达到了 93% 以上,起到了很好的支撑。同时,我们还共同打造数学大模型,整合教育专家的育人智慧、优秀教师的教学经验,以及全学科知识,形成机器思维链与数学问题链相结合的链式的推理路径,使学生在学习过程中能够更好地面对各类问题,用更好的方案解决它,提高学习能力,实现大模型与优秀教师人机共育——知识 - 能力 - 素养的目的。
此外,大模型还能够为个性化学习路径规划和资源推荐提供强力支撑。在大数据技术已经较为成熟地应用于用户画像与内容推荐的基础上,生成式人工智能的引入进一步拓宽了其应用场景。传统的个性化学习主要基于分数来评估学生对特定知识点掌握的程度;当前借助于大模型强大的理解力及穿透式能力,可以针对作业的具体内容,进行步骤式分析,实现更加细致的问题诊断和个性化路径规划。并通过智能识别学生最近发展区,规划动态学习路径和适切资源,实现单知识点练习量下降 50%、作业时间下降 32%。
3.2 五育并举
面向智育,培养孩子科学素养和兴趣。在科学与科普教育领域,当前面临两大主要问题与挑战:一是如何确保教师能够及时掌握并更新其专业知识;二是如何将复杂的科学概念以适合儿童理解的方式呈现,并通过具有吸引力的科普角色与学生进行互动。针对这两方面的需求,大模型展现出了独特优势,既能够高效获取最新知识,也能够根据不同年龄段学生的特点定制化构建寓教于乐的人物形象。因此,利用大模型技术可以有效地将高质量的科普资源传递给广大中小学生群体,打通应用最后 1 公里。
赋能智慧体育,从数据采集、分析评估、运动训练到方案制定,构建人工智能个性化运动处方,进行运动能力评估、日常体锻检测、运动习惯和身体素质监测,以及体质健康档案,促进体测水平与运动能力双提升。
3.3 创新人才培养
大模型赋能高校数字课程建设与学习,实现个性、开放、精准的智能教学。例如,借助 AIMind 工具快速构建课程知识图谱,重构课程体系,重组课程资源,提升个性化服务水平;开展融于教学全过程的伴随式评价,个性化推荐学习路径,提升学生学习积极性和学习效率;基于大模型构建课程专属知识库,随时解答课程疑问,为学生提供更加丰富和准确的知识资源。同时,助力学校一流学科和优势学科 AI 课程打造,如天津大学的“全过程全环节 AI 助教”走进新工科课堂等。
星火代码大模型为师生提供编程教与学助手,辅助教师高效编程教学,辅导学生自主编程与学习,赋能软件人才培养。其中,讯飞星火“码上”走向全国赋能全国大学生编程能力提升。例如,北京邮电大学率先运用“码上”平台开启教学改革实验探索学生主动提问率增加 1 倍,教师辅导工作减少 80%。
此外,讯飞还举办了高校 AI 星火营,激发大学生创意灵感,推动了人工智能新质人才培养。
4 人工智能 + 科研
人工智能赋能科学研究(AI4S)的三个台阶,一是科研基础工作提效,即依托科研文献助手,实现论文研读、前沿调研、代码研发效率提升;二是科学任务建模,即基于深度神经网络对海量实验数据中的复杂关系进行端到端精准建模;三是科研方案辅助设计,即从海量科技文献中自动学习领域科学知识,并辅助设计科研实验方案。
4.1 大模型助力科技文献知识服务与写作
大模型在科技文献调研与成果提炼、科技论文分析与内容解读和科技论文智能辅助创作方面表现优异,因此,利用大模型可以进行多文档成果分析汇集、跨语言内容摘要提炼,论文方法和图表公式的解读,以及辅助写作、翻译和论文创新点查重等。
4.2 科学知识推演大模型
在很多实验场景里,特别是化学和化工领域底物及底物条件的组合的一些深层问题,大模型可以抓取不同文献里的实验结果,帮助我们对涉及大规模数据的实验实现更全面的理解。当需要一个新场景应用时,很多下游任务可以利用这些技术辅助我们更好的生成。比如,我们聚焦化学、化工领域典型场景及下游任务,联合中国科学技术大学、中国科学院大连化学物理研究所等,帮助化学家减少大量求证和找资料的时间,积累领域科技文献语料及实验数据,研制科学知识推演大模型。目前,在化学、化工领域知识理解、催化剂性质、化工设备等维度的 33 项任务上,整体平均效果已接近 o1 的水平。计划 3~5 年攻关,实现实验方案设计与推荐达到科学家“必用” 门槛。
当前,科学知识推演大模型在一些单点任务上已经表现出良好的效果,结合大模型的快速发展,未来有望为各领域的 AI4S 研究提供更多支撑。
5 结束语
讯飞星火大模型下一步核心发展规划主要包括四个方面,第一,研究大模型底座能力提升方法,加快大模型应用落地速度;第二,拓展大模型多语种和多方言能力,为更多国家和区域提供大模型服务;第三,提高大模型服务效率,降低大模型应用成本;第四,开发大模型应用工具链,开放 API 接口,构建大模型产业生态,赋能千行百业应用提质增效。
(参考文献略)
王士进
科大讯飞副总裁、AI 研究院执行院长、认知智能全国重点实验室副主任,CAAI Fellow。在人工智能领域具有丰富的核心技术研究和成果转化工作经验,取得了一系列国际领先的研究成果,获得国际比赛冠军 30 余项,以及安徽省科技进步一等奖、吴文俊人工智能科技进步奖一等奖和中国科协求是杰出青年成果转化奖等奖项称号。带队研发的讯飞星火认知大模型成功发布,获得业内高度评价。
选自《中国人工智能学会通讯》
2025年第15卷第1期
人工智能赋能教育
热门跟贴