打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

周叔最近翻了不少2025年下半年的行业动态,发现一个趋势越来越清晰:多模态AI正从实验室走向产品决策的核心。

打开网易新闻 查看精彩图片

它不再是算法工程师闭门调参的玩具,而是产品经理必须参与设计的能力底座。

比如,阿里巴巴千问APP在12月初集成Wan 2.5视频生成模型和Qwen-Image 2511生图模型后,日均调用量突破3亿次,单日用户创作量达到ChatGPT视频功能的17倍。

打开网易新闻 查看精彩图片

再看教育领域,天立启鸣的AI学伴系统通过分析学生答题时的表情、书写速度、语音反馈等多模态数据。

打开网易新闻 查看精彩图片

在高考冲刺营中实现81%的能力提升率,平均提分50分,甚至助力云南彝良县打破百年清北录取零纪录。

这背后,不是模型更“聪明”,而是它终于学会了像老师一样“观察”。

打开网易新闻 查看精彩图片

从另一个角度看,多模态的本质,是让AI拥有接近人类的感知结构。

打开网易新闻 查看精彩图片

很多人以为多模态就是“能看图+能听声”,但周叔告诉你,真正的难点不在技术,而在判断力。

打开网易新闻 查看精彩图片

举个例子:商汤科技12月发布的Seko2.0多模态生成智能体,能制作短剧《婉心计》,登顶抖音AI短剧榜。

它厉害在哪?不只是生成画面,而是通过SekoTalk技术实现多人对话的声型同步,用负参考图解决角色一致性问题。

打开网易新闻 查看精彩图片

这意味着模型必须知道“哪些细节要保留,哪些可以忽略”。

打开网易新闻 查看精彩图片

模型看到“红色圆形物体”,不用查字典就知道可能是苹果,而不是靠后期拼接模块硬凑。

说白了,多模态产品拼的不是参数量,而是对真实场景的理解深度。

用户要的不是“高清画质”,而是“这张图能不能打动客户”;不是“语音识别准确”,而是“这句话听起来是不是真诚”。

打开网易新闻 查看精彩图片

这些判断,必须由产品团队和AI共同完成。

更关键的是,评测标准也在变。

2025年9月,国内四家权威机构联合发布《通用大模型评测体系2.0》,将评测任务从481项猛增至1186项,重点考核AI能否看懂CT片、听懂课堂讲解、理解视频叙事逻辑。

打开网易新闻 查看精彩图片

上海人工智能实验室的“司南评测”甚至要求模型在医疗场景中模拟医患对话——错一句用药建议,直接一票否决。

这说明什么?AI不能再靠刷题拿高分,必须真刀真枪“下场干活”。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

它不再满足于复述知识,而是试图理解光影中的情绪、声音里的犹豫、动作背后的意图。

这场变革的核心,不是让机器更强大,而是让技术更谦卑——谦卑到愿意用人类的方式去感知世界。

当AI学会“看”红灯、“听”语气、“读”表情,它才真正有资格成为我们生活中的伙伴,而非工具。