给你半分钟时间认真思考一个问题:如果有一天家里来一个人形机器人,你是打算开箱把它打开,还是让它自己敲门进来?
这不是科幻电影里的场景,更不是天方夜谭。也许只要5年时间,这个问题会真实地摆在你面前。
昨天,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上发表主题演讲时表示,生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级App,而是接管数字世界,改变物理世界。
“现在每个城市家庭里有一辆或者两辆车,未来每个家庭可能会有两三个机器人,可能是宠物狗、保姆、助理。”
最快一年半
智能体从数字世界走向物理世界
昨天上午,云栖大会主论坛一场关于通往AGI的大模型发展之路的圆桌论坛上,清华大学人工智能研究院副院长、生数科技首席科学家朱军说,关于AGI(通用人工智能),学术界和产业界一般认为分为L1-L5这五个阶段。
L1相当于聊天机器人,就是像ChatGPT可以做很多对话。L2叫推理者,可以做复杂问题的深度思考和推理。L3又叫智能体,AI开始从“数字世界”走向“物理世界”。L4是创新者,它会发现并创造新的东西和知识。到了L5则变成组织者,它可以去协同,或者某种组织方式更高效来运转。
虽然目前还处于AGI的初级阶段,不过今年有三件事让阶跃星辰创始人、CEO姜大昕印象深刻,其中一个便是GPT-4o的发布。
“在GPT-4o之前,大模型是一个个孤立的,比如有像GPT4V这样的视觉理解模型,有Dalle、Sora这样的视觉生成模型,还有像Whisper这样的声音模型。但是到了4o,这些原本孤立的大模型融合在了一起。”
融合这件事之所以这么重要,是因为物理世界本身就是一个多模态的世界。“多模融合有助于我们更好地为物理世界建模,从而模拟世界。”姜大昕说。
被称为天才少年的杨植麟是月之暗面Kimi创始人,成立至今,月之暗面经历了4轮融资,成为国内大模型创业公司中估值最高的一家。
杨植麟说,AI不仅在智商上有了很大提升,横向来看也有了很多新的突破。比如从Sora完成文生视频生成,到最近很多新产品和技术出来,不同模态之间的转化、交互和生成,变得越来越成熟。
他预测,随着o1大模型带来的思考范式的不同,未来在产品形态上有很大变化。“以后的AI,可能不光是思考20秒、40秒,它还要调用各种工具,可能执行的是分钟级别、小时级别甚至天级别的任务,所以产品形态上会更接近一个人,或接近‘助理’的概念,帮你完成任务。”
AGI从到L1、L2到L3,意味着未来智能体可以更好地做推理规划,更高效地和环境做交互以及完成人类的复杂任务。那么这个过程还需要多久?
朱军预测,未来18个月可能比较令人兴奋的一个进展,“我希望看到L3已经基本上实现。”
机器人最快5年进入家庭
随着AI的迅猛发展,也打开了通用机器人这个万亿市场的大门。
在最近的2024 ALL-IN峰会上,特斯拉和美国太空探索技术公司(SpaceX)的首席执行官埃隆·马斯克预测,未来机器人的数量将远远超过人类,达到至少2:1甚至3:1的比例。而早在去年,他曾公开表示,特斯拉未来将以人形机器人为基础,擎天柱要卖100亿台。
那么机器人大规模走入家庭,到底需要多久?
云栖大会上有一场关于人形机器人的“图灵时刻”的圆桌上,星动纪元创始人陈建宇,北大-银河通用具身智能联合实验室主任、智源学者王鹤,宇树科技创始人、CEO王兴兴以及逐际动力创始人张巍进行了大胆预测。
陈建宇认为,不管是工业还是商用甚至是家用,可能在一两年内有一些机器人开始进入,并进行简单工作。
“5年左右,可能是天翻地覆的变化。”对于通用机器人的落地应用,王兴兴非常乐观。他预测,最快明年机器人将在一些公益场景或固定场景有商业价值的落地应用,而全球范围内通用机器人开始应用需要3年左右时间。
“整个的发展节奏,无论是硬件还是软件,在某种程度上都是超过我自己预计的节奏。”王兴兴说。
而王鹤给银河通用定的目标是5年。“在车厂里抱箱子的机器人将达到1万台,10年可以安全性达到进入家庭标准,而15年后预计可能会产生千万乃至大千万级别的市场。”
这一代是最后一拨
大规模开车的人?
钛媒体联合创始人刘湘明经常和同事们开玩笑说,我们这代人可能是最后一拨大规模自己开车的人。
昨天,这个玩笑被“坐实”了。
“从现在到未来的36个月,可以让我们每一个人在每一个城市都像老司机一样开车。”昨天“生成式AI重塑自动驾驶”圆桌会上,小鹏汽车董事长、CEO何小鹏这样预测。
自动驾驶技术最早是从1925年开始开发,丰田从1999年开始开发,谷歌开始的时间是2009年,而百度和小鹏分别是2014年和2017年。
过去的自动驾驶,规则是人类工程师用代码一个个写出来的,“一个人无法用规则去面对世界上所有的场景,即使仅仅在开车这一个专业的业务。”何小鹏说,这也导致直到今天自动驾驶没有规模落地。
不过随着生成式AI的出现,自动驾驶在过去一年多的时间里看到巨大的机会。今年1月,特斯拉FSD全自动驾驶系统升级到了V12版本,何小鹏体验后的评价是:“几乎接近人类司机的驾驶水平。”
NVIDIA全球副总裁、汽车事业部负责人吴新宙,此前在自动驾驶行业工作超过10年,也见证了自动驾驶整个的变化和进展。吴新宙说,大模型已经在互联网上通过互联网量级的数据训练过,它对物理世界的理解已经远远超越了汽车驾驶的场景。“有了这样的通用能力,我们相信自动驾驶可以非常高效地去提高它的上限。”
“我觉得FSD在去年有着长足的进步,以前不管是中国的NGP,还是在海外FSD,都只是一个很基础的自动辅助驾驶。但FSD用端到端的大模型之后,让我们都看到了一个更巨大的变化,更拟人、很流畅,是当地的老司机。”
何小鹏预测,一旦当端到端的模型,下限能力在明年会快速提高,下限能力快速提高之后只用两年,就可以在全球范围内做到超过L4的标准能力(高度自动驾驶水平)。
文 | 沈积慧
VIEW MORE
@西湖边的猴子,直面天命 >>
@不死癌症“狙击手” >>
@AR眼镜“孤泳者” >>
@AI“心理咨询师” >>
热门跟贴