作者 | 玄宁
邮箱 | wangzhaoyang@pingwest.com
1
Sora是未来的一个碎片
不管你愿不愿意承认,大模型已经进入了更缓慢迭代的节奏。
从“Scaling Law已经撞墙”,到“OpenAI的下一代GPT遇到瓶颈”,再到“Google和Anthropic们的新模型无法再表现出明显的提高”,尽管Sam Altman依然用打哑谜的形式喊着“There is no wall”,但所有人都能感到墙就立在那里,AI们都已经站在了墙的面前。
这对习惯了每天醒来就看到一个模型大更新的人们来说,注定显得乏味了,于是不少人又开始期待Sora——这个OpenAI一直没发出来的模型,能奇迹般的立刻发布,然后拯救一切。
而消息也适时的出现:最新的流言是,Sora将在本周正式上线。包括Runway的联合创始人兼CEO在内的行业人士也“散布”了一下这个流言。
这是个有意思的现象,每当行业沉寂,人们就期待“Sora该出来了”。似乎它能凭一己之力把“大模型又颠覆世界”的事业给续上。
而最近百度创始人李彦宏也被问到了关于Sora的问题,他被问的理由有些不同——因为他是最早明确表示不会“复刻”一个Sora的人之一。
而他的回答也很有意思:
“Sora本质上是在任意场景下的视频生成能力。这件事情有没有意义呢?非常有意义,与此同时又非常难。你想想它的本质是什么呢?本质是可以做到基本可以预测未来。我们今天看到这么一个画面,你可以预测到下一个10秒,这个画面变成什么样子。无人驾驶是一个特殊场景的视频生成,我现在开到这儿了,那我下一秒怎么开,会看到什么样的景象,如果你都能解决的话,那无人驾驶不用做了,都可以靠那东西,可以做出来。”
“预测未来。”——这是个很有科幻色彩的说法,这意味着他其实比很多人更重视Sora的技术意义——就算再喜欢把AGI放在嘴边的人也没几个从“预测未来”的角度来形容它。但同时,这也意味着这种终极能力是今天尚无法触碰到的。
“正因为是这么大的一件事儿,所以我觉得它需要很长很长时间才能够做出来。”
也就是说,它更像一个遥远未来在今天的简单demo——它确实让人向往,但真的要实现,需要的工作还要很多很多年。
现实也正是如此。
进一步放到今天的现实环境,李彦宏认为,“如果真的能够做到任意场景下视频生成,那可能要很长时间,而且成本很高”。
市场研究机构Factorial Funds发布过一个报告,估算了Sora的成本。根据这份报告,Sora至少需要在 4200~10500 块英伟达 H100 GPU 上训练 1 个月。而如果Sora得到大范围应用,为了满足需求,需要约72万张Nvidia H100 GPU,如果按照每片英伟达 H100 AI 加速卡3万美元成本计算,72万片需要216亿美元。
另外,从落地场景来看,今天已经发布了类似Sora的、或者表示已经超过Sora的各类视频生成产品,在效果上也依然挣扎于“抽卡”,在商业化上也依然在继续寻找足够让收支变得合理的场景。恐怕Sora来了也要遇到同样的问题。
1
应用驱动,会通往更大可能
所以,今天再去看Sora,它发布不发布可能都没有那么重要了。
在展示了一些精挑细选的样片,借此炸场然后不停跳票后,一切都让它看起来更像是提前展示给大家的关于未来的一些碎片。这也让今天行业更加冷静下来后,可以用一个更现实的角度来看Sora。
其实很多人“崇拜”Sora,是被当时OpenAI那句“Sora是世界的模拟器”所打动,认为它是自成一派的新东西。但事实上,回到真实世界里,Sora是OpenAI内部一个小团队做的一次尝试,它用了OpenAI一小部分内部资源(相比其他公司,这部分资源依然可观)孵化的项目。这其实是OpenAI典型的技术创新方式——它的不同团队会基于OpenAI已有的基础模型比如GPT系列、图像模型比如Dalle-3等所积累下来的“要素化”的能力,来组建新的模型和产品,当这个产品成功后,再把它像模块化一样积攒下来,供更多的未来项目所用(比如GPT-4o系列等)。所以它并不是自成一派的彻底的新品种。
这个事实自然在当初一声声“震撼”和“颠覆”声中被忽视了。但今天冷静下来看,除了复刻它,Sora对于AI公司们来说还有更重要的启发,就是一家真正严肃对待AI,以更长期的耐心去做技术的公司,是会有基于技术判断的属于自己的技术拼图的。Sora这样单一的吸睛产品背后,其实更重要的是判断哪些是自己技术路线上最重要的板块,并在技术战略上做取舍。
好在,有这个意识的科技公司正在变得越来越多,其中百度也算是态度最鲜明的之一。
用李彦宏的话来总结,百度的AI技术路线和相关决策都从一件事出发——应用驱动。
“(百度的底层思考)就是应用驱动。这个和美国很多公司做法很不一样,美国很多公司一直都是梦想说我要做颠覆性的技术,我要多少年之内做成什么什么样子。我更多希望尽早接触场景及接触应用,看在这个过程当中,到底遇到了什么问题,把这些问题带回来,我们综合一下,看大家遇到的最多的问题,就是我们优先解决的问题。”
当明白了应用驱动是百度所有战略的起点,李彦宏在战略上放弃Sora类产品的决定就更好理解了。而其他的技术投入方向也会跟着这个原则来确定。
从应用驱动出发,百度的技术方向会围绕让应用更好落地展开,而这个过程里有两个巨大挑战,一个是交互,一个是智能。
在交互上,今天的模型需要更好的人与产品、以及产品与物理世界的交互,单纯的语言模型无法满足这样的需求,需要多模态的能力。
“外界有一种误解就是百度不做Sora,就等于是百度不做多模态。我们非常非常看好多模态,我们也在多模态上有非常长期的多年投入,在真正有应用场景的地方,我们的多模态能力是非常强的。”李彦宏在最近的对话里说。
这是百度一直投入的重要方向。Sora的出现让人们意识到语言之外的视觉模态的重要性,但它远远并非“多模态”的全部。人工智能中的多模态指数据或信息的各种表现形式。除了文本,图像和视频,还包括音频模态、传感器数据(温度、湿度、触觉信息)、代码、数学公式等等。
而在智能上,百度的做法如李彦宏所说——“事实上,我很多的研发资源还是投在了外界看来基础的能力或者理想主义者看重的东西。我们在做,我们不断地在这方面加大投入、付出努力。我只是觉得,没有必要把这些只有极少数人才能够听得懂或者说才会appreciate的东西到处去讲。我需要倒出去讲的是,更多的人,几千万人,几亿人确确实实能够用得到的东西。”从“让几亿人可以用到”的实际出发,被幻觉所扰乱的智能不是真的智能。这是李彦宏希望百度去解决的问题。
于是二者结合,百度推出了iRAG技术(检索增强的文生图技术 iRAG,image based RAG)。它是多模态和降低幻觉两个重点技术方向的融合。它将搜索与文心大模型联合优化,将百度搜索的亿级图片资源跟强大的基础模型能力相结合。李彦宏在最近的世界大会上,展示了它让生成的图片更真实、准确的例子。这样的效果,能够大幅降低影视、漫画,连续画本等场景里AI生成图片的成本。
如典型的百度风格那样,这些多模态底层能力也在第一时间开始寻找那些更清晰的落地场景。数字人是重要的方向之一。
“我们今天讲的多模态,实际上是解决另外一类型的问题。比如数字人,不是纯语言模型,你生成的文字要用语音表达出来,语音表达的时候口型要能对得上,手势应该做什么,我如果转头了,侧面的图像能不能跟正面保持一致等等,看起来都是一个比较简单的事情,但是你仍然需要解决。靠任意场景下生成视频的东西,不一定能把这事儿解决得很好。如果真的能够做到任意场景下视频生成,也许能够解决。那可能要很长时间,而且成本很高。”李彦宏说。数字人是一个全面考验多模态能力的场景,同时也是一个要求更务实方案的真实商业化需求。
“我用简单的方法,就能够做到,那我为什么不呢?先把这些事儿解决了,让这个应用能够跑起来,这是我们的思路。”
据了解,其从2019年起就开始布局数字人领域,在语音克隆、唇形同步、表情动作捕捉等一系列关键技术上有多年积累。今天,百度“曦灵”数字人、“慧播星”数字人已广泛应用于新闻播报、直播电商等场景。
在百度世界大会上,李彦宏也展示了被他称为“角色智能体”的多个数字人案例。这些数字人已经可以做到效果自然、动作幅度更大,在一些场景的转化率已经超过了真人。
“我们非常相信,真人与虚拟人的交互,将创造巨大的产业价值和社会价值。这里的虚拟人,可能就是现实生活中的一位名师的数字分身,也可能是一位名医、王牌律师和金牌销售的数字分身,而你从来没有像现在这样离他们如此之近。”李彦宏说。
当然,除了iRAG和数字人,作为多模态大模型最大的落地场景之一,自动驾驶也是百度多模态能力的重要体现。
2024年7月,百度对外发布了全球首个支持L4级别无人驾驶业务的大模型Autonomous Driving Foundation Model(ADFM),这也是萝卜快跑的核心技术。ADFM包括感知大模型和规划大模型,两者通过联合训练,从原始数据捕捉到油门和转向输出,形成端到端的自动驾驶系统。
这款大模型结合硬件产品与安全架构,通过多重安全冗余与管理策略,确保了车辆的稳定与可靠。Apollo ADFM的引入,标志着自动驾驶技术的安全性与泛化性达到了前所未有的高度,其性能超越了人类驾驶员十倍以上,成功覆盖城市级全域复杂场景。
1
空谈AGI,不如让真实的应用来给行业信心
所有重要的技术似乎都逃不开曲折前进的周期,而身处其中的人冷暖自知。今天在AI产业里蔓延着的普遍情绪是,泡沫正在慢慢破裂,人们已经无法通过听一些人空谈AGI来获得对未来的信心。
怎么办?
当人们从“颠覆性技术”的预期中醒来,建构信心的方式就需要改变。大模型带来的技术革新依然是巨大的,所以换个角度来看,这个底层技术迭代的“瓶颈期”同时也是各行各业“喘口气”沉下来理解技术在应用上真正机会的“窗口期”。接下来的信心也将来源于此。
认定AI落地和进步需要应用驱动的百度,也在通过实际的成果尝试给行业分享更明确的预期。在百度世界大会上,李彦宏在演讲过程中在大屏上展示了文心智能体平台的TOP100智能体。这些应用的分发量、平均对话轮次、用户喜爱度等指标都令人印象深刻,涵盖了多个行业,包括智能客服、内容创作、数据分析等多个领域。
这些都是在实际解决问题,能让人看到实在用处的AI应用。相比于不少人天天讨论的“超级应用”,这些千行百业的应用大规模出现,可能是“超级应用”的另一种路线。
此次,目前,百度智能云已经在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。百度智能云千帆大模型平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用、文心大模型日均调用量超过15亿次。
有人曾比喻,今天的大模型技术,事实上到了这样一个阶段——巨龙已经被造出,接下来就看谁能更好驾驭它。百度的应用驱动,就是要给各行各业的人们提供更好地驾驭巨龙的可能。
而在这个应用百花齐放的过程里,技术的周期会继续前进。今天AI撞上的墙,很大程度来自于数据的枯竭,而像是iRAG这样的技术,与今天越来越长尾的应用相结合,其实会在更多真实的物理世界的场景里产生新的行业落地数据,它们在模型的推理阶段被收集,再反哺回模型的训练阶段。应用的繁荣最终会促进模型能力的下一次进化。
也许有一天一个 “预测未来”级别的Sora会真正出现,而今天竭尽全力把AI技术转化为各种落地应用的公司,可能反而会在这个接地气的探索中,更早触碰到通往未来的可能。
热门跟贴