认为通用人工智能能够靠现有技术架构迅速实现的,可能倾向于认为人类世界是虚拟的,所有人都是假人。
先从马斯克说起,因为目前很多人认为通用人工智能能够很快实现,很大程度是受马斯克影响。
前不久,马斯克预测2026年是通用人工智能落地的分水岭,AI开始具备独立思考和自主决策能力,2030年AI整体智能将超过人类总和。于是很多人都在说马上就要实现通用人工智能了,人类即将被AI替代。在这一假设基础上,有智库还写了
但,马斯克不是科学家也不是工程师,他是商人,他最核心也是最擅长的是商业和资本运作,他分析的技术方向需要关注,但技术实现的具体节点,是服务于资本运作,当不得真。
一定注意识别马斯克那句话是真实的,他为了资本运作,是不在乎夸张的,甚至经常把10年甚至20年才能实现的浓缩为一年,反正实现不了也无所谓,市值和融资拿到手就行了。
马斯克2011年说最早2020年把人送上火星,随着时间点临近,推迟到2022年,然后是一点点推迟到2024年、2026年、2027年、2028年、2029年、2030年以及当前最新的2033年,其实每一次推迟,都有他的资本运作目的,比如2019年炒作,是为了服务星舰项目。
2015年说他的公司距离完全实现自动驾驶还有两年,到2019年说2020年将有一百万辆自动驾驶出租车出现在街头,但时至今日,仍然只在最初试点的少数城市以低数量运行,运行数量也低于中国。
2025年,又说到2030年要年产100万台擎天柱机器人,2025年内就要生产5000台;同样是2025年,他又说要发射100万颗星链卫星,还要搞太空光伏、太空算力。至于超级跑车、超级高铁等等零零散散的项目,那就更多了。
马斯克最常说的目标是“百万”,也证明马斯克不过是随便说一说,因为英文中百万是一个词“million”,在传播上,就像中国人说一个小目标是1亿而不是2亿、3亿、5亿一样,更加朗朗上口。
就拿星链卫星来说,地球近地轨道能够容纳的低轨卫星,也就是20多万颗,怎么可能达到100万?何况星链卫星的寿命最多也就是5年,如果要保持100万同时在轨,需要每年发射20万颗,这根本不现实。
除了资本炒作和市值目标,马斯克从未如期实现任何承诺过的技术或产品目标,唯一例外是上海超级工厂。
所以对马斯克的话,要关注他说的技术方向,重视他炒作故事要支撑的资本目标,但对具体的时间节点,不宜当真。不过马斯克仍然值得学习,就在于他虽然夸张、炒作故事,但他确实努力去实现,资本炒作与理想主义,并不矛盾。
更需要国内金融投资行业学习的是,但凡用理性思考甚至回顾下过往,就知道马斯克是在吹牛,但美国金融和投资机构就是相信,这不得不服。
就比如最近马斯克说在近地轨道部署100万颗星链卫星,如果从地球发射实在太慢了,传统火箭发射成本太高,所以提出从月球用电磁弹射向地球发射卫星,就把发射成本降低90%。为此马斯克设想,在月球建一座卫星组装厂,把卫星零件从地球运过去,组装完成后再用电磁弹射发往地球轨道。
这种故事,用正常人的思维应该不难发现荒谬之处,要从月球反过来发射,月球基地的建设需要多少成本和时间呢?干嘛舍近求远?
但这都不重要,无论再荒谬的事情,只要是马斯克说的,就有很多人信。
马斯克还说过一句话,他说“这个世界99%是虚拟的,我们可能并不生活在真实世界中”,言下之意就是认为所有人不过是一串代码。相信这个判断马斯克是真的相信,也只有人类世界是虚拟的,他才敢说以目前的本质是统计学的AI大模型架构,能够很快通往通用人工智能。
追溯生成式AI大模型的发展历程,其底层算法架构从最早的支持向量机VSM、逻辑回归、长短期记忆网络一路发展到革命性的Transformer架构,伴随算力提升,模型参数量不断暴增。
在这个过程中,发现了一个很诡异的事情,那就是只要参数足够多、算力足够强,AI就是能更加精确地预测下一个词应该是什么。
其本质就是统计学,对这一点没有分歧。
但之后对AI的未来发展就出现了分化,区别在于是否相信统计学能够实现真正的智能。
有人认为人类的文本语言本质是一种高维信息,大语言模型的海量训练就是在一个人类尚未感知到的高维空间去总结事物背后的规律,只要AI能做到精准预测下一个词,就说明AI已经懂了整个世界的运行规律。还认为人类智慧刚开始也可能只是本能,只不过不断累积参数,然后在随机中涌现出来了天然智能。
沿着这个思路往下走,自然认为只要继续堆叠算力、堆叠参数,总有一天能够对整个世界进行建模,只要AI能够完美预测到下一个词,就等同于可以预测世界。
比如斯蒂芬·沃尔弗拉姆所著《这就是ChatGPT》一书,就认为“当你输入一段提示词,你其实是在这个高维空间里确定了一个起点和方向。模型预测下一个词,就是在这个流形上沿着概率密度最高的路径走一步”。
按照这个思维,认为智能就是预测,人类靠大规模的神经元能够构建出智能,凭什么AI不行?
以上还是比较讲科学的,还有的将智能归结为神秘学甚至外星人,这就有些不可知论甚至邪教味道了,就不多说了。
对上述观点,小镇个人是不信的,小镇更认可Meta前首席AI科学家、2018年图灵奖得主杨立昆的观点。
他提到一个关键,他在演讲时说,训练一辆自动驾驶汽车需要数百万小时的数据,而一个17岁的青少年只需大约10个小时就能学会开车。
他认为根本区别在于,:当前AI模型是自回归模型,也就是基于统计学的预测模型,不可能对物理世界形成真实的认知,说到底不过是基于既有信息,进行最大概率的预测罢了。正是基于这一认识,杨立昆才选择去搞世界模型,但相比靠堆参数和算力就能看到进步的生成式AI,世界模型这条路目前看不到实现的可能。
顺带一提,推理和训练,也是目前AI工程实践中完全不同的发展方向。所谓训练就是尝试让AI模型学会知识,通过海量带标签的样本数据,通过算法迭代和堆叠万亿级参数,从而求解出机器学习模型最优参数,说得直白点就是对下一个词的预测变得更加准确。这也是目前生成式AI大模型采取的方式。
而推理则重在运用知识,也就是依托已经训练完成的模型参数,对新输入数据进行预测、生成响应,重点是AI技术落地解决实际问题。
目前国产算力芯片重点放在推理上。新增光刻机等基本配属到推理芯片生产上,这也让AI大模型公司意见很大,认为训练芯片的短板导致中美之间AI大模型差距进一步拉开,不过硬件部门也有自己的看法,认为是AI大模型公司算法不行,没法充分利用现有硬件潜力。这种互相掰扯,就不多讨论了,都觉得自己说的有道理。
但这种倾斜本身,已经体现了国家的看法,那就是不相信现行生成式大模型,这种基于统计学的自回归模型,能够通往真正的通用人工智能。在国家看来,与其将所有筹码压在很可能无法实现的技术方向上,不如务实地先把AI应用于各行各业、推动生产力实质提升,再以更强的生产力去带动AI技术的发展,自然更支持推理类算力芯片的生产。
对比上述两种思维,核心区别在于是否认为统计学能够实现真正的智能。
那么首先需要定义到底什么是通用人工智能,目前有很多不同定义,主要有四类。
一是基于能力:认为AGI应该是一种能与人类综合认知能力相媲美的人工智能系统,其能力范围可以覆盖人类智能的各个方面;
二是基于行为:最典型的就是“图灵测试”,认为只要AI表现出来的行为与人类无法区分,那就行了,后来还提出了“咖啡测试”,也就是机器人能够进入普通家庭并独立制作咖啡,差不多是一个意思,就是不管机器人到底有没有跟人类一样的意识和智能,只要表现出的行为一致就行。
三是基于范式:简单地说就是AI能够主动发现任务,理解任务背后的价值和意义,并据此做出决策。
四是基于适应性:也就是能够在有限资源限制下,有效适应环境、解决未曾见过的问题,更强调学习和进化的过程,并不锁定在实际能力上。
总结上述四种定义,最终殊途同归,那就是通用人工智能,应该能够基于已知去探索未知。
认为靠统计学能够实现通用人工智能,本质就是认为这个世界是虚拟的,因为虚拟所以知识必然是有边界的,只需要靠堆参数、堆算力,就一定能够实现。
也就难怪马斯克会认为人类世界是虚拟的、2030年人工智能可以超越人类。也只有在这种情况下,统计学才能包打天下。
于是,关于AI的发展路线,就变成了唯心和唯物之争。
所以,相信AI可以很快实现通用人工智能、超越人类,或许更容易相信或者说信仰某种神秘力量,比如神、外星人等等操控人类世界。
自从想明白这一点,小镇再看到说通用人工智能18个月、两年、很快就会实现的,小镇也就不多说啥了,只回复,等你说的这个时间,咱们用实践来验证下,记得到时候回来留言,咱们验证一下。
大家怎么看?
其他文章推荐
(中篇)
(上篇)
如果喜欢,还请点赞、“在看”和关注吧
欢迎分享,让更多人发现“大树乡谈”
备用:大树乡谈2022、大树乡谈2023
热门跟贴