国产AI应用爆红的背后|ai应用|人工智能|大模型|视频生成模型

量变引质变

国产大模型迭代加速

现在可以说是一个人工智能概念泛滥的时代，似乎所有新鲜科技都是含着人工智能金钥匙诞生的“大模型之子”，但正所谓“会哭的孩子有糖吃”，人工智能声量越大，往往也就意味着它们现在正处于需要关注度、需要流量来发展的阶段，那么在这个时间点，中国的人工智能究竟发展到了什么地步呢？

AI 2.0时代，应用落地才是王道

在刚刚结束的北京车展上，大多数新款车型都可以做到“说哪动哪”，比如坐在主驾扭头看向副驾方向说“打开那个窗户”，副驾车窗就会自动打开……这些车型无一例外都搭载了国产人工智能大模型，通过模拟人的大脑和神经网络，具备语音、视觉等多模态交互能力，为座舱提供更人性化的操控能力，同时在智能驾驶方面计算更精准，越来越像一个持有驾照多年的“老司机”。

而汽车大模型，正是国产人工智能发展的一个重要缩影——我们知道，在新能源汽车领域，我国在全球范围都称得上是一骑绝尘，而智能驾驶就是人工智能发展的一个核心应用方向。从应用角度来看，大模型在可分为通用、行业、场景三个大类，以前我们老生常谈的大模型往往是通用大模型，事实上这也是大模型的理想形态，也就是真正对人类社科文化的全知全能。但显然，对于现阶段的人工智能来说，整个世界的知识体系还是太庞大了，这个目标有些不切实际。

所以，现阶段的人工智能大模型走向了专用型的路线，通过为它投喂行业中的专业数据，并训练形成场景化、定制化、个性化，产生专有的模型，为各个垂直领域都实现人工智能赋能，在算力、数据和模型三端实现匹配，这也标志着人工智能向着更细化的方向发展，业内也以此为时间点，将现在的人工智能划分为AI 2.0时代。

还是以汽车领域为例，目前已经落地车用的大模型几乎都是行业大名鼎鼎的翘楚，包括但不限于华为的盘古、百度的文心一言、科大讯飞的星火、360的智脑等科技企业的通用大模型，也有比亚迪的璇玑、小鹏的灵犀等车企自研，以及商汤绝影端到端自动驾驶解决方案UniAD等行业大模型，从终端来看，已有超过10个品牌的汽车搭载大模型，发展态势如同星星之火一般，将技术优势牢牢攥在中国企业手中。

当然，除了近期热火的新能源智驾，国产人工智能大模型也在生成式AI领域有着长足的进步，很多业内人士都认同一个观点——在AI 2.0 时代，生成式AI被视为推动生产力进步的重要技术，如果能在知识、推理、执行三层能力上实现突破，将真正带来整个社会生产力的跨越式发展，而从具体落地表现来看，目前国产人工智能的确已经具备和国际一线较劲的实力。

以Kimi为代表，国产大模型细分应用崛起

今年3月，由北京月之暗面科技有限公司推出的首个支持输入20万汉字的智能助手产品Kimi Chat引发全网热议，最新版本甚至已经支持到200万字，超大容量的长上下文处理能力帮助用户解锁了包括长篇文本的翻译和理解、辅助分析法律问题、一次性整理几十张发票、快速理解API开发文档等丰富功能。

而且除了长文本处理能力大幅提升之外，Kimi还强化了自身的上下文窗口和无损记忆功能以及多语言支持优势，在联网搜索与信息搜集、数据处理、编写代码和模拟对话等多种使用场景中同样表现出色，为大模型应用“长文本时代”打开新局面。

国产大模型细分玩法逐渐丰富

从使用者的角度来看，Kimi免费且好用，知识库覆盖了科技、文化、历史、教育等多个领域，而且回答精准度很高，还支持包含 TXT、PDF、Word、PPT、Excel等常用文档的内容解析功能，以电子产品行业为例，经常会有专业性很强且长达几万字以上的说明文档需要处理，文档中有复杂的数据格式，阅读费时费力，而ChatGPT免费版支持的最长文档是约2000个汉字，用户不得不把长文档拆分成很多小段来上传，费时费力，而国外另一款产品Claude3虽然支持几万字长文本，但每天免费次数只有20次。

作为对比，现在使用Kimi，就只需要这些长文档扔进对话框就能很快地得出准确答案，极大地提升了资料管理和信息检索效率。并且Kimi的应用程序接口也非常丰富，既有手机App，也有网页端和微信小程序，对于大多数人来说，实用性甚至超过了GPT-4等付费大模型。

当然，除了Kimi之外，近期还有一个非常火爆的热点就是京东推出的“采销东哥”，刘强东以AI数字人的形式亮相京东直播间。

实事求是地说，在技术层面仍有瑕疵，比如动作和对话的自由度有限，真实感也略显不足，但AI数字人突破时空限制，提高直播、视频等内容制作效率的事实也摆在眼前，与此同时它还能降低对单一IP或明星的依赖，增强业务稳定性。而且这类应用由新一代人工智能大模型驱动，既可以拉动底层基础设施需求，还能利好相关算力产业链，推动整体社会生产效率的提升，更重要的是这方面的应用也首先落地中国，历史意义非凡。

算力就是实力，大厂仍是主角

对于用户而言，我们看到的是人工智能的结果，但对于企业来说，大模型不是从天而降的，它需要强有力的算力在背后支撑才能“成大事”，而如今的大环境其实并不算特别好，部分国家对中国的“芯片封锁”愈演愈烈，不仅限制高端芯片的出口，还限制先进芯片制造设备的出口。

根据中国海关总署数据，2023年我国累计进口集成电路4795亿颗，较2022年下降10.8%；进口金额3494亿美元，下降15.4%，创历史新低。不过，情况在今年有所缓和，1-2月我国进口集成电路785.2亿块，同比增长16.8%，进口额同比增长15.3%至547亿美元，占我货物进口额的13.6%，较上年同期的12.2%明显提升，但综合压力依然不小。

而在这样的大环境下，国内自主研发的人工智能算力芯片开始发力，据国家统计局公布的最新数据，2023年中国的集成电路产量为3514亿块，而2022年为3242亿块，同比增长6.9%。，创下近几年新高。换言之，现在正处于国产人工智能硬件端全面“换血”的阶段，政策扶持也明确表现出了具象化的要求，也即政策、企业、行业都瞄准人工智能算力芯片，往一个方向使劲。

在这个大环境下，国内的科技巨头也动作频频，比如腾讯、阿里联手投资长鑫存储；美团投资碳化硅功率器件研发生产商清纯半导体；字节跳动旗下公司成为昕原半导体股东；蚂蚁集团完成专注于安全芯片的无锡沐创数亿元A3轮领投……

所以，国产人工智能大模型的发力，其实也是一个非常烧钱的过程，巨头躬身布局是行业必然，以阿里通义千问为例，近期公布了其自研的EMO模型“全民唱言”上线通义千问App，能够通过输入一张参考图像和语音音频，生成具有真实面部表情和各种头部姿势的唱歌视频。

接下来我们也会对这个全新的功能进行详细测试，毕竟下一阶段的生成式AI大概率就是文生视频，自今年2月OpenAI Sora爆火之后，谁能真正将这一细分领域落地，谁就能站上2024年人工智能行业的风口，但文生视频对算力的需求相对文生文、文生图完全就不是一个量级的，所以，具备雄厚资源和资本的企业在这个阶段的优势会更加明显。

刷爆朋友圈的现象级国产AI应用

积极破圈的现象级AI应用

任何新技术的落地，都需要现象级应用的推动，当通用AI元年已成为过去式后，落地应用如何破局？

在探讨AI的无限可能时，我们不得不提及其在各个领域所展现出的惊人能力和潜力，但对于大多数人而言，AI依旧是陌生甚至有些高不可攀的存在。尤其是在大模型“遍地”的当下，国内各大科技企业、初创企业、科研机构甚至高校研究室，仅在过去一年多时间里就孵化出数百个国产大模型，更让大众对AI具体的应用场景和方向感到迷惘。

百度创始人李彦宏就在西丽湖论坛上公开表示：“不断地重复开发基础大模型是对社会资源的极大浪费。做大模型还有没有机会？有，但大模型的机会，并不只是大模型本身，更多的机会将来自其上的应用。AI原生时代，我们需要的是100万量级的AI原生应用，而不是100个所谓的大模型。”

大模型太多，而有价值的AI原生应用太少，就像空荡荡的店铺里没有货物，白白浪费算力成为当下国内乃至全球AI领域的弊病。AI时代，大模型作为基础底座固然重要，但类似操作系统存在的大模型，想要发挥作用，用户始终需要依赖终端应用，可即便是打造了《我们的 T2 重制版》的Sora，又或者多模态代赛道代表的Gemini，虽然已经具备足够的话题性和热度，但复杂的操作往往让初学者望而却步。

“破圈”成为当下AI应用落地当务之急，唯有从应用场景打通才能让AI应用实现流量变现，从而在庞大的C端用户群体支持下持续成长。

在AI应用破圈上，9.9元的妙鸭相机无疑做出了相当不错的示范，凭借其华丽精美的照片质量以及与用户极高的相似度成功破圈，而海外Remini、PicsArt等AI照片生成应用同样快速崛起，单纯通过内购即获得数百万美元的收入，再加上月收入能超两三百万的“Chat & Ask AI”和“ChatOn- AI Chat Bot Assistant”这样的AI聊天软件，人们清楚地看到C端消费市场的潜力以及AI应用细分赛道破圈趋势。

让蒙娜丽莎唱歌的通义千问EMO

让蒙娜丽莎开口唱歌、高启强普法……朋友圈一系列创意视频刷屏的背后，阿里通义千问EMO浮出水面。EMO是阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片－音频－视频模型技术，官方将其定义为“一种富有表现力的音频驱动的肖像视频生成框架”。

通义千问EMO的好玩之处在于用户只需要提供一张照片和一段任意音频文件，EMO即可生成会说话唱歌的 A 视频以及实现无缝对接的动态小视频，比如《狂飙》电视剧中“高启强”畅谈罗翔普法；蔡徐坤的一张图片，就能通过其他音频配合“唱出”一首rapper饶舌，连口型都几乎一模一样。

《电脑报》记者拿到首批测试资格后点开通义千问App，根据提示升级到最新版本后，在首页对话框中输入“EMO”即可激活。

进入EMO操作界面后笔者发现，其本身由“全民舞王”和“全民唱歌”两大板块组成，前者不久前才凭借“兵马俑跳‘科目三’”在朋友圈大火了一把，这一次EMO显然将升级重点放到了“全民唱歌”板块的打造上。

“全民唱歌”板块当下有爆款热歌、影视热梗、表情包三大分类，同时在底部设计了“创意广场”（目前未进一步细分“创意广场”内容），用户只需点选进入喜欢的模板，再点击“演同款”按钮，即可按要求上传图片生成相似的视频片段。

这里上传的图片一定要符合EMO要求，确保正面人脸完整出现在画面中。上传完整合适的照片后，用户安心等待就好了。

从生成效果来看，表情非常到位，任意语音、任意语速、任意图像都可以一一对应，而这样的动态小视频最长时间可达1分30秒左右。让一个表情冷酷的女生开口唱一段俏皮的歌曲，这本身就是件极具传播性和话题性的事情，自然轻易刷爆朋友圈了。

有网友复活了自己的偶像，有网友将教材上的历史人物也复活了，有很多搞怪视频，大家玩得不亦乐乎。网友戏言，有了EMO，从此不再emo。

渐行渐火的图文视频赛道

通义千问EMO可以说是以一己之力带火的是整个国内图生视频赛道。阿里之外，美图视觉大模型MiracleVision4.0、字节AI创作平台Dreamina同样嵌入了图生视频功能，而腾讯也同清华大学、香港科技大学联合推出全新图生视频模型 “Follow-Your-Click”，只是没能像通义千问一样将图生视频功能以类似小程序的形式整合到AI大模型对话App中。

不同于Runway、Pika等以图生视频为核心优势的AI大模型，国内“图生视频”应用往往背靠阿里、美图、字节这样的巨头，旗下庞大的生态体系足以推动“图生视频”功能快速落地，而“图生视频”本身创作的作品，又能反哺巨头生态内容体系。

而不同平台“图生视频”功能的背后，往往是各大巨头大模型功底的比拼。

有趣的通义千问EMO并非横空出世，其背后是阿里这些年在AI大模型及应用领域持续的投入和耕耘。过去一年多时间里，阿里推出了包括通义千问、通义万相等多款对标 OpenAl 的 A 大模型产品，以及基于双流条件扩散模型的真人百变换装技术OutfitAnyone、角色动画模型Animate Anyone等技术，实现多个场景应用。今年初，阿里就推出的Qwen-VL模型实现多次迭代升级，并宣布 Plus 和 Max 两大版本升级，支持以图像、文本作为输入，并以文本、图像、检测框作为输出，让大模型真正具备了“看”世界的能力。

EMO框架使用Audio2Video扩散模型，生成富有表现力的人像视频。该技术主要包括三个阶段：一是帧编码的初始阶段，ReferenceNet 用于从参考图像和运动帧中提取特征；二是在扩散过程阶段，预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成；三是使用主干网络来促进去噪操作。在基于网络中应用了两种形式－－参考注意力和音频注意力机制，这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外，EMO的时间模块用于操纵时间维度，并调整运动速度。

从图片到视频，人物微表情往往是AI生成视频内容是否“一眼假”的关键。字节Dreamina 就被不少用户评价“在人体动作的整体模拟上已经做得不错，但在面部表情、手指动作等细节方面还比较粗糙，特别是在长时间特写镜头下，人物的细微表情变化往往不够到位，显得有些呆板。”腾讯“Follow-Your-Click”则设计了WebVid Motion数据集，强调人类情感、动作和物体常见运动，并设计了一个运动增强模块，使模型能理解短提示。

通义千问EMO这一次能够引发终端市场的轰动，同其出色的面部表情管理有很大关系。EMO引入了速度控制器和面部区域控制器，可以把控面部微表情，使得视频更具有表现力。

观看EMO上网友制作的视频会发现，视频人物在唱歌时还可以根据歌曲的情感变化而出现面部表情的细腻变化，非常传神。当然，EMO还只是一个图生拟真视频，只不过是做得更流畅和逼真，逻辑上跟近乎专业赛道的Sora还是有天壤之别，但独特的社交属性和低门槛，足以让其拥有成为现象级应用的潜力。

总体而言，从让郭德纲飙英文、让霉霉说中文的翻译视频生成工具HeyGen以及掀起AI证件照热潮的“妙鸭相机”，再到如今的通义千问EMO，AI在C端市场频发孵化爆款应用的同时，也推动整个C端市场走向成熟。无论是每月收费20美元ChatGPT Plus，还是用户主动讨论会员付费机制的Kimi，AI的C端应用时代已经拉开帷幕……