手工劳动/挖哥
手工编辑 /角叔
出品/独角兽观察
一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色手提包,戴着墨镜,涂着红色口红。她自信而随意地走着。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人在街上行走。
今年2月,OpenAI的Sora闪亮登场,这段60秒一镜到底的文生视频迅速火爆出圈,业界惊呼AI视频的GPT时刻到了。
国内吃瓜群众在感叹Sora丝滑同时,也开始灵魂拷问:中国何时能有自己的Sora?压力来到了百度这样中国人工智能扛旗者身上。
跟还是不跟?
11月12日,在百度世界2024大会上,百度创始人李彦宏给出了答案:“当年初整个中文互联网都为Sora捶胸顿足时,我们决定去解决图像生成的幻觉问题。这个问题看起来更简单,甚至更枯燥,但是不解决就不会有应用。”
这个取舍多少有些出乎常人意料,毕竟跟Sora相比,这个一点都不“性感”。
放弃大热的Sora,选择枯燥的iRAG,李彦宏做对了吗?
01
取舍
年初,在Sora特别热的时候,《独角兽观察》了解到当时百度内部也有过讨论,最后的结论是:千万不能去做Sora,因为周期太长了,可能要投入10年、20年。无论多火,都不能做。
年底,这个抉择让李彦宏站在上海世博中心的演讲台上,底气十足地宣布:“过去24个月,这个行业最大的变化是大模型基本消除了幻觉,回答问题的准确性大幅提升。”
李彦宏的底气来源于百度的一项颠覆性技术iRAG(image based RAG),检索增强的文生图技术。
众所周知,大模型是一个概率模型,生成的内容具有一定不确定性,经常会出现一些胡说八道,让人哭笑不得的结果。业界把这些由AI产生的不真实、虚构的内容称为AI幻觉现象。
李彦宏在现场展示了一张由开源模型生成的北京天坛图片,看上去很像,但总觉得哪儿又不对。直到对比天坛照片,才发现真正的天坛其实是三层,而模型生成的是四层。
这种李鬼替代李逵的情况,自娱自乐还行,要想变得可用、可信赖、有“人味”,就需要解决幻觉这个问题。
与Sora相比,幻觉问题可能不那么出彩,但他却是制约大模型广泛应用的最大限制之一,幻觉问题不仅影响了AI的实用性,也限制了大模型在很多领域的应用。尤其像医疗、法律这样需要高度准确性的应用场景,一个小误差就可能导致严重的后果。
AI应用要迎来百花齐放,幻觉问题就是那堵遮挡了阳光,影响花儿成长的厚墙。
所以,从轻重缓急来说,iRAG比Sora的优先级更高。
如果把格局拉大到整个人工智能行业,解决幻觉问题比做出Sora重要,它能帮助更多的应用落地,让更多人用上AI技术,从而惠及更多行业。
百度检索增强的文生图技术iRAG ,通过把自身亿级图片数据和基础模型能力结合,利用检索到的信息来指导文本或答案,大大提高了内容的质量和准确性,解决了以往文生图模型生成图片“机器味”重、一眼假的问题。
耳听为虚,眼见为实。《独角兽观察》在文小言上实测了一轮,生成了下面这组图片。
▲把盖茨安排到长城跟关羽搓麻将,就问他怕不怕?
▲手持狙击枪的林黛玉,你们从来没见过吧?
▲老年苏菲玛索拥抱年轻的自己。
▲“搬家”到沙漠的自由女神像和埃菲尔铁塔。
▲一个人冒雪上朝的张居正。
▲飞越壶口瀑布的法拉利。
虽然这组奇思妙想的图片,大多不可能在现实中出现,但由iRAG生成的图片,元素都非常真实,准确性也非常高,如果不是因为内容太过“违和”,已经看不出“AI味儿”。
通过iRAG去伪存真后,AI生成图片的可用性大大提高,应用空间也就随之打开了。像影视作品、漫画作品,连续画本,海报制作等,通过iRAG生图可以大幅降低创作成本。
比如,一些大品牌的宣传,拍一组高质量的海报,需要找策划、模特、摄像等大量人力,消耗大量财力,动辄一个项目都需要少则一二十万,大则几十万,但现在成本接近于0。
李彦宏将iRAG的商业价值总结为:无幻觉、超真实、没成本,立等可取。
02
有用
李彦宏今年的演讲主题是《应用来了》。
与李彦宏过去1年多对大模型的思考一脉相承,其核心就两个字:有用。
“没有构建于基础模型之上的,丰富的AI原生应用生态,大模型就一文不值。”去年百度世界大会,李彦宏呼吁创业者去做更容易产生价值的应用。
今年,李彦宏把有用“升级”到超级有用:“百度不是要推出一个“超级应用”,而是要不断地帮助更多人、更多企业打造出数以百万‘超级有用’的应用。”
正是基于有用的原则,李彦宏舍弃了看上去很华丽的sora,选择做iRAG去解决幻觉问题,搬走了大模型走向“有用”的最大路障。
“基础模型能力就绪,我们将迎来AI应用的群星闪耀时刻。每一个应用都是一颗星,每一个应用都将成为改变世界的力量。”李彦宏认为未来有两大AI应用方向:一个是智能体,另一个是产业应用。
大会现场,百度发布了基于大模型的100大产业应用,涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等众多行业。
这宣示着大模型不再是空中楼阁,已开始切切实实在重塑千行百业。
如果说iRAG 让大模型更有用,秒哒则让大模型的使用门槛更低。
李彦宏演示了通过秒哒如何搭建一个活动报名系统。
在整个“开发”过程中,李彦宏只是向秒哒描述了需求,小组长、策划、小编、程序员和质检员5个智能体互相协作,协同完成策划、内容和开发等各种工作,他们甚至还能自动识别bug。
无代码编程、多智能体协作、多工具调用,秒哒不用写代码,就能实现任意想法,让每个人具备程序员的能力。
“我们将迎来一个前所未有的只靠想法就能赚钱的时代。”百度CEO李彦宏说。
这个将于明年一季度上线的工具,对大模型的重要性或许不亚于windows系统对PC普及的意义。
上世纪末,电脑操作系统还是基于文本命令行界面的dos系统,对没有计算机基础的用户非常不友好,windows的图形界面,大大降低电脑使用门槛,让电脑真正开始进入寻常百姓家。
03
预见
从2022年chatgpt横空出世至今,大模型已经火了将近两年。
这轮全球性的大模型狂热,究竟是一场新的技术革命,还是新一轮泡沫?
李彦宏和他的百度文心大模型给出了答案:截至 11 月初,百度文心大模型的日均调用量超 15 亿,最近半年增长率更是达到7.5倍。
30多年前,还在北大读书的李彦宏主动选修了人工智能课程,自此就给AI结下了不解之缘,成为AI的长期信仰者。
去年,在chatgpt后,李彦宏率先发布了国内第一个大模型。
如今,大模型已成了互联网大厂的“一号工程”。但鲜有像李彦宏这样的“一号位”还活跃在前台,不遗余力大力推介AI。
2023年9月,《时代》周刊发布了首届全球百大AI人物,李彦宏被评为全球AI领袖,和他一起被评选上的还有马斯克、黄仁勋等。
《时代》评语:“李彦宏是中国最杰出的未来主义者,长期投身于AI发展的浪潮。”
预见未来,让李彦宏在狂热的市场里,总能保持一份“人间清醒”。
去年,当各路人马蜂拥而入,鏖战大模型时,李彦宏说“不要卷模型,要卷应用”。事后证明确实不需要这么多大模型,如今美国还在坚持做基础大模型也就剩下几个巨头。
当应用开始被重视,很多人开始追求C端AI超级爆款,李彦宏说:“大模型对ToB 业务改造,比互联网对 ToB 的影响力要大一个数量级。”如今,C端的AI“超级APP”依然难寻,ToB 应用百花齐放。
当Sora年初炸场时,李彦宏选择去解决图像生成的幻觉问题,收获了颠覆性技术iRAG。
在最近的一次专访中,李彦宏详解了他放弃做Sora的原因,他认为Sora本质上是在任意场景下的视频生成能力,这个事情本身是非常有意义的,但同时又非常难,需要很长很长时间才能够做出来。
一语成谶。
接近年底,Sora依然难产,一些试用Sora的电影制作人体验后觉得并不太理想,有电影人反馈必须让模型生成数百个短片,才能找到一个可用的短片。
Sora刚出来时,担心工作被AI取代,好莱坞影视从业者还爆发了抗议潮。现在,好莱坞已经很久没有抗议声了。
跟着别人跑多为跟风者,耐得住寂寞,坚持自己方向的人才可能成为追风者。
在李彦宏眼中,人工智能很像是一次新的工业革命,这意味着它不是三五年就结束,不是一两年就出现“超级应用”的过程,它更像是未来三十、五十年对整个社会一个非常彻底的重构。
在人工智能的这场马拉松式竞赛中,不逞一时之“快”,保持足够耐心和战略定力,才不会掉队、跑偏。(完)
热门跟贴