Tips:亲爱的朋友,微信推送规则一直在变化。如果你仅仅是“关注”,很可能无法收到推送。按照下图操作点击“刘润”公众号名片,设为星标,就可以不错过文章啦。

打开网易新闻 查看精彩图片

朋友们,马年好!马年第一天,给大家拜个年!

虽 然俗套,但我还是想祝你:烦恼马上消失,好运马不停蹄,财富一马平川,全年龙马精神!

昨天春晚看了吗?不管你是葛优躺,还是打麻将,肯定瞄了眼电视吧?

感觉咋样?

有人笑得合不拢嘴,不就图个热闹嘛。有人看得直叹气,还不如让B站来办。都对。

但我昨晚的情绪不一样。

我是:提心吊胆。

为什么?因为昨天的春晚,非常特别。

今年春晚,不只是文艺秀,更是中国AI算力的极限承压实验。就像是几亿人同时挤进一扇门,看门会不会被挤破。

当屏幕上那匹水墨马“活”了,随着音乐奔腾跳跃;当主持人说“打开豆包App”,数亿人涌进去生成AI头像;当相声小品的包袱被实时打在无障碍字幕上……

我的第一反应不是“震撼”,而是“紧张”。手心捏着汗,心里默念:千万别崩,千万别崩。

因为那一秒如果扛住了,中国AI就交出了一张满分答卷。没扛住呢?哪怕只是几秒钟的黑屏,崩掉的就不止是服务器,而是全社会对国产AI刚刚建立起来的、那点脆弱的信心。

什么?你没看见?

这样吧。今天,我想带你复盘昨晚的三个“惊魂时刻”:复活的马、100万倍的算力、和无障碍的字幕。

打开网易新闻 查看精彩图片

复活的马

这个节目看了吧?张杰唱的《驭风歌》,非常豪迈,荡气回肠!

打开网易新闻 查看精彩图片

但这不是重点。重点是什么?你看节目背后的大屏幕,那奔腾的骏马。就像一幅跑起来的水墨画。

这幅“画”,是不是很眼熟?

没错。如果我没看错,它应该是脱胎自徐悲鸿的《六骏图》

打开网易新闻 查看精彩图片

(图片来自网络:徐悲鸿,《六骏图》)

这幅画,创作于抗日战争最艰难的时期。当时徐悲鸿身在马来西亚。为了支援国内抗战,他举办画展义卖。一场接一场。所以你看这幅画里的骏马,昂扬、勇猛、一往无前。画的就是当时的中国。那份不屈服,不放弃。

这种精神,在水墨里流淌了80多年。黑白的。安静的。但就在昨晚,在春晚的舞台上,这幅画,“活了”过来。那些曾经只存在于徐悲鸿脑海中的骏马,冲出了画面。

那一刻,我头皮发麻。

是魔术吗?不,是技术。这段视频,不是动画工作室一帧一帧画出来的。而是由AI生成的。

是的。就是这个月火遍全球,被认为能“颠覆好莱坞”的,字节跳动的视频模型,Seedance 2.0。

按理说,神兵在手,应该稳操胜券了吧?但我还是狠狠捏了一把汗。

为什么?因为再厉害的AI,用来“复活”一幅国宝级的水墨画,也实在是太容易翻车了。

你看细节。马奔跑时,毛发飞起来了吗?有没有随着身体起伏?马跑起来,会不会撞到一起?或者穿身而过?甚至,会不会跑着跑着,跑成了八匹?

生成一段“好看”的视频,不难。但生成一段“对”的视频,太难。尤其是春晚直播。容错率为0。

为什么这么难?

因为互联网上,水墨画素材太少了。AI没得学。但更本质的原因是,中国水墨画讲究意境,讲究留白。而AI擅长具象,擅长填满。两种思维,完全不同。

带着这种担心,我死死盯着屏幕。直到看完节目,心里的石头才算落地。

这几匹马,鬃毛飘动,肌肉起伏,光影变化……每一个细节,都精准、细腻。细腻到让人怀疑:这真是AI生成的?

我很好奇。于是问Seedance团队:你们是怎么做到的?甚至还能和歌唱配合得这么严丝合缝?

因为我们不光教AI“学画画”,我们还逼着AI“学物理”。

以前的AI,画出来的马是“飘”的,因为它不懂牛顿。但这一次,Seedance给马装上了“骨骼”,给地面铺上了“引力”。马蹄落下去,必须要有踩实的触地感(这就是:物理合理性);上一秒踢飞的石子,下一秒绝不能凭空消失(这就是:时序准确性)。它不再是简单的生成画面,而是在模拟真实世界的物理规律。

为什么配合得这么好?是因为我们教AI听懂了“感觉”。你不用再对它说“向左旋转15度”。你可以说“再往左一点点”,“一点点就好”,“多了,再回来一点点”,“对,速度慢一点,步态轻一点”。这种只可意会不可言传的“感觉”,它全都能听懂(这就是:超强指令遵循)。

至于风格,我们为它请了三个师傅。那就更简单了。导演的草图,教了它构图;真马的视频,教了它肌肉;徐悲鸿的笔触,教了它灵魂。

把物理规律、人类直觉、艺术审美,揉在一起。这就是你看到的,这几分钟奇迹。

原来如此。难怪,Seedance能在这个月火遍全球。以前,是我们看着硅谷的Sora眼馋;今天,终于轮到硅谷的博主,为中国的Seedance熬夜。

这一次,中国AI的马蹄声,终于踏进了世界舞台的中央。

很震撼。

但这还不是最震撼的。让我更加捏把汗的,不是这匹马。

而是那个红包。

打开网易新闻 查看精彩图片

100万倍的算力

昨晚,你也抢豆包红包吧?

你在手机上选“新春头像”时,给亲朋好友“写祝福”时,一个定制的红包就弹出来了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

(图片可左右滑动)

你抢到了红包,然后顺手把祝福发给了到“相亲相爱一家人”群里,就转头看下一个节目。

在你看来,这一切再正常不过。但就在那一秒,我的心,提到了嗓子眼。

为什么?

因为就在按下“发送”的那一秒,你已经置身于一场吉尼斯级的技术风暴中心。

回想一下,2015年。微信红包第一次上春晚。我们守在电视机前疯狂“摇一摇”。那时的抢红包,本质是什么?

去领方便面。

仓库里,提前准备好一个亿的方便面(红包)。你摇一下,就到仓库门口取一包。主持人说“跟我一起摇”。瞬间,一亿人挤在了仓库门口。

压力大吗?非常大。

但这种压力,是“分发”的压力。仓库里有足够的面。人多?那我就多开几个柜台。反正,红包这个“面”本身是不缺的。

但昨晚,规则变了。你喊出“马上发财”之后,你的专属红包,才开始生产。

这就相当于什么?

相当于你排到柜台前说:“我要一碗雪菜肉丝面,加块大排。要蒜不要葱,多醋少酱油。”你说完,后厨才开始现做。

昨晚,豆包红包的后厨,叫火山引擎。它的工作,就是要在短短几秒之内,把上亿份各不相同的、热气腾腾的面,同时端上桌。

以前的红包,是静态资源,是方便面;现在的红包,是动态计算,是现做拉面。这背后的计算量,完全不可同日而语。

据火山引擎官方数据,一次AI互动消耗的算力,是传统抢红包的100万倍以上。更关键的是,这100万倍,发生在几秒之内。

这是一场发生在你指尖的数据海啸,却席卷了千里之外的服务器机房。

在你看不到的网络监控中心,大屏幕上的负载水位线,瞬间疯涨。几乎要刺破屏幕顶端。工程师们,谁也不敢眨眼。

最后……竟然扛住了。

你要知道,面对这种“海啸级”的瞬时爆发,靠堆机器肯定来不及。那到底是怎么扛住的?

靠的是一个能号令千军万马的“算力调度系统”。

火山引擎有一个“联邦调度器”。你可以把它理解为“超级中央厨房”的云端总店长。

它能以秒级为单位,精确调度分布在全国几十个机房里的,海量的机器、海量的显卡。平常,它看起来只是个普通小面摊。可一旦需要,它能瞬间把全国各地成千上万个闲置炉灶,并入自己的生产线。

原本分散在各地的火力,在这一秒,全部汇聚到了你的这碗面上。

这就是计算资源的“弹性伸缩”:需要时,千军万马来支援;不需要时,瞬间解散。

可是,如果做到这一步,火力够了,厨师还是忙到没法在几秒钟之内做上亿碗面呢?

那就创新做面的流程。

火山引擎创新的煮面灶台,叫做:火山方舟。这是一套“大模型推理系统”。它有大量在体系结构层,算子层,系统层的创新。

比如体系结构层的:PD分离。Prefill-Decoding Separation。把煮面的工序,彻底流水线化。

本来,一个厨师收到你“一碗面,要大排,不要葱”的点单,需要先看备注、再备菜,这叫Prefill。准备好之后,再开火炒菜、盛面出菜,这叫Decoding。备菜是他,掌勺也是他,一个人恨不得劈成两个用。这种效率,怎么可能快得起来?

如果换个方式呢?

一个厨师只负责切菜(处理Prompt),另一个厨师只负责颠勺(生成Token),流水线作业。各司其职,专心做一件事。这样,效率不就高了嘛。

显卡也是一样。

工程师们做了一场针对算力的“手术”:PD分离。

他们把显卡分成两拨。一拨算力极强的显卡,专门负责“切菜”,也就是Prefill。它们第一时间读懂你的要求,不管你写的是“马上发财”还是“马到成功”,它们都会瞬间备好。

而另一拨显卡,则集中负责“颠勺”,也就是Decoding。它们专心致志把准备好的祝福语,一个字一个字地生成出来,打包塞进红包。

这就是PD分离。

让每一张显卡,都能专注于一件事。结果是什么?显卡利用率从30-50%,直接提升到70-90%。成本,更是降低了40-60%。

这意味着,原来下一碗面的时间,现在几乎可以下两碗。而且,成本更低,速度更快。

除了PD分离,为了“榨干 ”显卡的 每一滴推理算力,他们开发自己的算子层,针对每款硬件做优化;优化自己的系统层,实现了分布式的推理策略。

这就是科技。

极致的算力调度系统。极致的推理优化系统。把复杂留给了机房,把流畅留给了你。

除夕当晚,“豆包红包”帮助用户生成超过5000万张新春主题头像、生成超过1亿条新春祝福AI互动总数达19亿

真如洪峰过境。

我相信, 当流量洪峰过去,那条垂直的负载水位线开始回落时, 监控中心里 一定爆发出了一阵短暂而热烈的欢呼。

因为 那一瞬间,几千名工程师经历了一场提心吊胆,和一份如释重负。

但如果说,发红包的瞬间是让我手心出汗,那另一个瞬间就是让我无比动容。

这个瞬间就是:无障碍字幕。

打开网易新闻 查看精彩图片

2780万人“读”懂了欢笑

根据最新数据,中国有2780万听障人士。如果加上各类听力受损人群,这个数字高达2.06亿。

2780万。这个数字,比澳大利亚的人口还多。

对他们来说,春晚不只是一场晚会,更是一年一度的“失语”。当全中国都在欢笑时,他们面对的却是一个被静音的世界。这种热闹,反而是最大的孤独。

你可能会问,不是有手语翻译吗?

因为手语翻译,会弄丢30%的信息。

手语是“缩略图”,口语是“高清图”,两者的信息量完全不在一个量级。更别提那些语法结构的天然差异。相声里的谐音梗、歌词里的双关语、语气里的微表情……手语,真的“翻译”不出来。

所以过去,这近3000万的听障同胞们,看得见舞台上的灯光,看得见演员的笑容,却听不见主持人的祝福,听不见相声的包袱,听不见歌声里的情感。

直到昨晚。春晚直播中,首次出现了“AI字幕”。听障人士,终于可以“读”出主持人“说”的每一个字。

打开网易新闻 查看精彩图片

你可能会问:语音识别不是早就有了吗?为什么今天才上春晚?

因为传统语音识别,像个“小学生”。它只会“听音”,不会“入脑”。它分不清是“山西”还是“陕西”,也分不清是“背景”还是“北京”。

在平时,90%的准确率算优秀;但在春晚,哪怕只有1个错字,也是100%的事故。因为这样的场合,绝对无法接受“给全国人民拜个年”,变成字幕里的“给全国人民摆个脸”。

所以,央视的要求是:不论方言,不分语速,不管音乐、笑声、掌声是否嘈杂,字幕都必须100%准确。而且,从话音落地到字幕上屏,不能超过1秒。

面对这种几乎“反人性”的要求,火山引擎的工程师们,拿出了豆包Seed-ASR大模型。

什么是Seed-ASR?简单来说,它不是在“听音”,而是在“审题”。

当听到模糊的“shanxi”,它不会在那死磕发音,而是瞬间扫一遍全文:刚才主持人才提到了西安分会场?那一定是“陕西”,不是“山西”。它不是在猜,而是在推理。

这种上下文理解能力,让它比普通模型多“挽回”了15%的致命错误。哪怕背景音乐震天响,它的综合准确率,依然能在95%以上。

准还不够,还得快。

为了搞定那“1秒钟”的生死时速,它跑的是“流式语音识别”。不再是等一句话说完才出字,而是话音刚起,文字已出。

精准、实时、零延时。这,就是今天中国的语音识别能力。

那万一,我是说万一,还是有错呢?

必须万无一失。火山引擎直接拉了一支技术团队,在直播现场,守了一整夜。任务只有一个:死守屏幕,人工实时纠错。

在这个数字时代,科技跑得实在是太快了。

但是再快的算法,也值得停下脚步,等一等那些困在寂静里的人。

然后,携手迈入新年。

打开网易新闻 查看精彩图片

最后的话

复活的马。并发的红包。和无障碍的字幕。

昨晚,当春晚结束的钟声敲响时,我长舒了一口气。这场对中国AI基础设施的“大考”,我们扛住了。

2026年的春晚,是一个分水岭。因为,它标志着AI正从“大人的玩具”变成“文明的工具”,从“技术尝鲜”变成“基建设施”。

春晚这一战,证明了中国AI的基础设施,已经能稳稳托住亿万人的期待。

当基础设施修好了,跑的车自然会多。当AI基础设施变得像空气和水一样自然,我们一定会迎来“应用层”的寒武纪大爆发。

我擦了擦手心的汗。举杯。

敬那匹复活的马,敬那行跳动的字幕。

更敬这个正在被技术温柔推开的,2026。

干杯。

作者/ 刘润编辑/ 歌平版面/ 黄 静

这是刘润公众号第2865篇原创文章。未经授权,禁止任何机构或个人抓取本文内容,用于训练AI大模型等用途

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片