谁来给中国大模型落地打个样？|大模型|工作流|智能体|神经网络|翻译

题图｜视觉中国

2024年，是大模型走向应用的关键之年。

由Transformer技术所引爆的大模型浪潮，曾以迅雷不及掩耳的姿态横扫了全世界科技行业，给很多人带来了“危机感”。但随着时间的推移，在热度下降之后，“大模型”也开始面临对新技术的固有挑战——落地应用。

原因很简单：脱离了落地应用，“卖铲人”神话也好、AI狂潮也好，都逃脱不了破灭的命运。

AI行业深谙这个道理，更偏向于独立App生态的海外市场，各种由大模型驱动的AI应用2024年如雨后春笋般出现；而更偏向于由大厂带头突破的国内，几大基础大模型在各自基础能力PK前进的同时，也在内置智能体的数量和丰富度等维度展开了激烈的竞争。

在这种大模型竞争全面深化的趋势下，如何找准接下来落地应用的发展路线，显然成为国内一众大模型的“胜负手”。

大模型应用落地的关键，是要“超越”技术

在大模型走向应用落地的过程中，有种看法一直颇为流行——大模型带来的技术飞跃足够大，因此只要找到“杀手应用”，就能一下子实现技术的落地应用和普及。

这种继承自前几波技术浪潮，可以总结为“只要造好了锤子就能找到钉子”的思维，其实忽略了一个现实：世界上90%的事情用最简单数字化规则（例如基础编程语言）就已经可以运转得很好，完全不需要用AI大模型来改善。

剩下的10%最困难、最需要人脑智慧的高价值任务中，大模型AI目前能够独立解决的也很少。少数大模型AI能够独立给出“结果”的应用，其价值更是长期处于“非常暧昧”的状态。

就拿智能体来说，在ChatGPT最为火热的时候，它似乎就成为了AI解决问题的一切手段，任何新需求都能通过一个智能体或者多个智能体协作来完成。

但实际情况是，这些主要依赖LUI（语言交互界面）的智能体虽然五花八门，学习了海量资料，却普遍存在“沟通成本高+输出质量不稳定”的大模型先天缺陷，其输出内容的类型和方式也相当有限，极大地限制了进一步的应用落地。

这些曾经大热的大模型落地方向之所以走不通，恰恰是因为很多时候我们过于关注一些流行的概念或技术，而忽略了要解决的根本问题是什么。

因此想要大模型获得应用落地，最关键的还是找对用户需求，开放地运用各种技术更高效率地解决问题，而不是陷入到“只用大模型能力”来解决问题的怪圈之中。

用人话来总结，AI也只是解决问题的“工具”，是手段而不是目的。

最终实现两个独立目标“技术驱动产品”、“产品体验驱动用户增长，实现落地应用”。这两点也是当前阿里通义将大模型带向落地应用的核心思路。作为阿里AI战略的排头兵，通义为中国大模型落地打了个样。

如何实在与先进并存？

基础思路已经夯实的通义，在寻找用户需求这件事上，核心思路是把“不懂技术的用户使用AI的门槛”打下来。

大模型的底层创新Transformer神经网络，核心突破是特别擅长处理长篇幅文字内容。它能够理解和生成连贯、复杂的文本内容；所以海量自然语言、文本的场景一直是大模型最明确的“舒适区”。

需要接触大量知识、会议、交流的工作学习领域，显然处于这个“舒适区”的正中央。如何首先“攻克”这个领域，就成了各家大模型落地应用的必争之地，目前走在最前列的，就是通义。

今年8月底，通义对自己的网页版产品进行了一轮大升级，将“通义听悟”、“通义智文”两个产品升级成“实时记录”和“阅读助手”，同时还加上了新的“PPT创作”，将这一系列能力打包成了全新的“通义效率”，一口气覆盖了办公学习的大部分场景。

其中“实时记录”主要负责将现实中的语音记录下来，并且通过翻译、编辑、AI总结等提取其中的信息；“阅读助手”则可以对各种文档、网页链接进行信息总结、知识筛选提炼；“PPT创作”，则可以利用大模型直接根据少量核心信息，输出具备逻辑性且美观的展示材料。

三者结合在一起，最终构成了一个信息获取整理、资料阅读理解到思考内容展示的完整工作学习流程。

如果说整体板块的完整工作流还不算什么，那么通义对于单个功能的细分工作流完善，真的可以说是“令人发指”。

就拿“实时记录”来说，只要有麦克风，就能对中、粤、英、日四种语言进行实时语音转文字，同时英文/日语还能直接转译成中文。

在完成最基本的语音转录文字和翻译的同时，其界面也针对实时场景做足了优化。例如左侧的转录板块之上，就附带了“搜索”、“查找与替换”、“发言人筛选”、“批量摘取”、“翻译”、“发言人区分”、“AI改写”7个功能。

用户可以借助这些工具，快速地对转录内容进行查找、修改、编辑、提取。完全不用迷失在冗长的转录内容之中。

右侧的功能板块则将“导读”、“脑图”、“笔记”三个功能结合在了一起，“导读”可以对转录内容进行AI总结、摘要；“脑图”则可以将根据转录内容整理出思维导图，让用户快速掌握会议要点和脉络；“笔记”则提供了完备的在线编辑能力，用户不仅可以写下文字记录，同时还能插入录音的“时间戳”、插入截图、甚至是直接插入表格和任务列表。

这一整套从实时录音输入，到最终结果输出的核心能力集合，直接覆盖了会议记录、课堂记录等核心场景，在多个环节之中穿插的AI大模型能力，更是让整个信息处理流程顺畅了起来，既实现了AI大模型功能的落地，同时也给用户带来了效率和使用体验的飞跃。

“阅读助手”和“PPT创作”同样能看到很多细节的打磨。

“阅读助手”采用了类似于“实时记录”功能的板块设计，右侧一口气集合了“导读”、“翻译”、“脑图”、“笔记”四个功能。虽然布局相似，但“翻译”被很细节地从左侧移到了右侧，一下子就提供了极佳的外语文档阅读体验，可以逐段对照地查看原始文档和全文翻译结果。

而“PPT创作”支持一句话、上传文件和长文本生成PPT，在完成首次生成之后，也可以进行文字内容修改，甚至是直接召唤大模型帮忙一起优化文案。PPT上面的任何一张AI生成的图片也可以点击进行替换，通义甚至贴心地为用户附上了“咒语书”，帮助用户优化约束图片生成效果。

为了便于用户使用，这些能力也集成在了通义App首页中。当然，不能不提的是，通义出色的用户体验除了仰仗产品优秀设计与细致打磨，也离不开通义快速跃进的基础模型能力。

今年6月，阿里发布了开源模型Qwen2-72B，一经推出就在全球各个大模型排行榜中成为了全球性能最强的开源模型。

到了今年9月的云栖大会，通义旗舰模型Qwen-Max全方位升级，在诸多大语言模型权威基准测试中，直逼甚至超越全球最先进的OpenAI GPT-4o；其中通义千问新一代开源模型Qwen2.5中的旗舰模型Qwen2.5-72B更是超越了Meta的Llama 405B（模型参数量更少，但是测试成绩更好），再次登上全球开源大模型王座。

这种“产品”与“技术实力”的交相辉映，也延续到了如今大模型最热的视觉领域。在9月更新大语言模型“通义千问”的同时，阿里也更新了自己视觉大模型“通义万相”，让其AI生图、AI生成视频的能力再次获得了提升。

“通义万相”视频生成模型主打更能听懂中国话，更懂中国风的特点。用户只要输入任意文字提示词，例如画面内容、空间构图、运动过程、运镜方式，就可以生成影视级高清视频，以及与画面匹配的音效。

用户还可以通过灵感扩写功能，对自己的提示词进行智能丰富，进一步提升视频内容表现力；图生视频功能更是支持用户将任意图片转化为动态视频，通过提示词来控制视频运动。

阿里团队在“通义万相”中突破性地采用了Diffusion Transformer架构，并且从一开始就采用了中英文双语标注，让中文文生视频内容的创作能力实现了飞跃。在模型发布的同时，用户可通过通义APP及通义万相官网免费体验，率先做到了“技术到应用”的全链路发展。