AI的前世——从图灵的狂想到Transformer的诞生|人工智能|卡斯帕罗夫|感知机|明斯基|艾伦·图灵|超级智能|黄仁勋

来源：市场资讯

（来源：图灵人工智能）

您想知道的人工智能干货，第一时间送达

一

1997年5月11日，纽约。

历时九天的六局比赛结束，IBM超级计算机“深蓝”以两胜、三平、一负的成绩，战胜了国际象棋世界冠军加里·卡斯帕罗夫。

全世界的媒体沸腾了——

“人工智能已经超越人类！”

李开复当时就在现场，他后来回忆，自己激动得手都在抖。这可以理解。一个人类最顶尖的智力代表，被一台机器击败了，这难道不是历史的转折点吗？

但我要告诉你一个冷酷的事实：深蓝根本不是“智能”。

它是靠暴力穷举取胜的计算怪兽。“深蓝”重达1.4吨，有32个节点，256块处理器集成在IBM的并行计算系统中，计算能力是每秒分析2亿个棋位，能提前推演后面12步的所有可能性。

什么意思？它把你所有的退路全算完了，然后降维打击。你卡斯帕罗夫是天才，但你能算到第几步？

它赢你，不是因为它“聪明”，只是因为它力气大到离谱。

这就像你跟一台起重机比举重——你输了，不是因为你智商不够，是因为你根本不是它的对手。

那真正的AI革命在哪里？

不在聚光灯下。不在1997年的纽约。

而是在二十年后——2017年，一篇标题平淡无奇的论文里。

二

一切故事的起点，是1950年。

那一年10月，英国数学家艾伦·图灵在哲学期刊《Mind》第59卷第236期上发表了一篇论文，标题是《计算机器与智能》。

这篇论文问了一个极其简单、又极其棘手的问题：“机器能思考吗？”

图灵没有直接回答。他设计了一个游戏——我们后来称之为“图灵测试”：假如一台机器能在对话中骗过一个人，让对方以为自己在跟真人聊天，那这台机器就算“会思考”了。

这个标准至今仍然是人工智能的“终极目标”。七十多年了，我们依然在用他的标准衡量AI的进步——这本身就说明了一个问题：图灵在1950年划下的那条线，我们到现在还没能完全跨过去。

六年后的夏天。

1956年6月18日到8月17日，在美国新罕布什尔州汉诺威镇的达特茅斯学院，四位学者——约翰·麦卡锡、马文·明斯基、纳撒尼尔·罗切斯特和克劳德·香农——召集了当时计算机科学、数学和认知心理学领域最聪明的一批人，搞了一个为期八周的暑期研究项目。

这次会议的名称很长——“达特茅斯人工智能夏季研究项目”。

正是在这次会议上，麦卡锡等人首次正式提出了“人工智能”这个术语。一个学科就此诞生。

那时候的气氛乐观到了什么程度？

这么说吧，参加会议的那些人——麦卡锡、明斯基、香农、纽厄尔、西蒙——他们真的相信，只需要一个暑假的时间，就能搞明白“怎么让机器像人一样思考”。一个暑假！

现在我们回头看，这种自信天真得让人心疼。但你也别嘲笑他们——没有这股天真的劲头，世界上根本就不可能出现“人工智能”这门学科。

可人生最大的悖论是：让你站上舞台的东西，往往也是把你推下深渊的东西。

三

1970年代初，AI迎来了第一次“寒冬”。

AI圈的学者们在“解决通用智能”这个问题上太乐观了。他们承诺得太满，兑现得太少。资助机构失望了，政府削减了经费，资本撤离了。整个领域进入了长达十余年的冰河期。

但这还不是最要命的一击。

最要命的一击，来自“自己人”。

1969年，马文·明斯基和西摩·帕普特出版了一本专著，书名就叫《感知机》。这本书的核心结论是：感知机连XOR（异或）这样简单的逻辑函数都解不出来，这条路走不通。

“感知机”是什么？它是神经网络的“祖先”，是模仿人脑神经元工作原理做分类计算的一个简单模型。

注意，这可不是随便哪个学者的随便一个观点。明斯基是谁？他是1956年达特茅斯会议的发起人之一，是AI这个学科的奠基人之一。相当于你搞了一场革命，然后自己站出来说：“同志们，咱们搞错了方向。”

这本书对神经网络研究产生了毁灭性的打击。

《感知机》出版之后，神经网络的论文几乎从顶会里消失了，资本迅速撤离，研究经费被砍得精光。神经网络这个方向就此被打入了冷宫，整整十几年的时间里，谁碰神经网络，谁就是学术圈的“异端”。

关于明斯基这个人，学界内部至今争论不休。有人说他是AI史上最伟大的先驱之一，也有人说他是亲手浇灭自己点燃的火炬的那个“罪人”。

我觉得真相是：他既是点火者，又是“刽子手”。

他点燃了AI的火把，又在同一个十年里，亲手把火给浇灭了。

但如果把AI的跌宕起伏全算在明斯基一个人头上，那还是把他想得太重要了。AI的起起落落，背后是两条技术路线的长期缠斗，这个持续时间长达四十多年。

四

1980年代，做语音识别、机器翻译、图像识别的学者们，被清晰地分成了两大阵营：

一派坚持“模仿人”的传统AI方法——先把人类的思考方式研究明白，找出思维规律，再把这些规律写成代码。

另一派则倡导“数据驱动”的方法——给机器喂海量的数据，让它自己从中发现规律、总结经验。不研究人脑怎么思考，只研究数据里有什么规律。

吴军老师在《浪潮之巅》里对技术路线的选择有一段极其深刻的洞察。他说，技术路线的选择，往往决定了一个公司、甚至一个行业未来几十年的命运。

这个判断放在AI身上，再贴切不过。这两派在接下来的三四十年里不断纠缠、彼此攻讦、互不相让。

传统派不屑地说数据派：“你们这个叫什么智能？这分明就是统计学罢了。数据堆出来的东西，能叫思维吗？”

数据派冷冷回怼：“行啊，你倒是先把‘什么是思考’定义清楚再说吧。你们定义了快五十年了，定义出来了吗？”

那这场赌局，最后谁赢了？

今天我们都已经看到答案了。2023年以后，所有击败人类顶尖水平的AI系统——AlphaGo击败李世石、AlphaFold破解蛋白质折叠难题、ChatGPT通过多种专业资格考试——这些系统里，有哪一个是用传统AI的“先理解人脑思维规律”做出来的？

一个都没有。它们全是“数据驱动”这一派的子孙后代。

传统AI几乎被历史遗忘了。

但你别以为这就意味着“数据驱动”这条路一直顺风顺水。它前面还有一道极其难闯的关。这道关，才是真正消耗时间最久、消耗精力最大的。

这个难题就是“训练”。

你想让人工神经网络变得足够聪明，让它学会把猫识别成猫、把狗识别成狗、把不同的词汇和语法结构映射到正确的语言空间中，你就必须给它“喂”海量的数据——海量的标注好的图片、海量的标注好的文本、海量的标注好的声音信号。

而“喂”这些海量数据的过程，意味着极其庞大、极其复杂、极其烧钱的矩阵乘法计算。

说白了：你堆的算力越猛，神经网络就越聪明。

但2010年代以前，这个概念——“堆算力”——几乎没有人认真对待。原因很简单：根本没有能“堆”得动的算力硬件。传统的CPU是为“串行计算”设计的，也就是一次做一件事。而神经网络的训练需要的是“并行计算”——成千上万个计算单元在同一时间各自算各自的东西，然后把结果汇总。

CPU干不了这个活。

所以，AI研究在2006年之前，基本上被“算力不足”这个问题卡得死死的。

就在AI圈为算力发愁的那些年里，有一家公司根本没想过自己会成为“AI军火商”。

这群人，本来只是做游戏显卡的。

五

题外话——一群做显卡的人如何成为AI世界最大的军火商

2006年11月，NVIDIA的黄仁勋发布了一个全新的GPU架构，叫G80，芯片代号GeForce 8800 GTX，内建128个流处理器。

与此同时，他顺势推出了一套软件平台，叫CUDA，号称可以让GPU做通用并行计算，不只是用来跑3D游戏、画图、渲染。

当时的新闻稿里形容G80“具有相当多的全新特性”，其中媒体最关注的一条是“允许显卡芯片模拟物理运行并辅助通用计算等目的”。意思就是GPU也能稍微分担一点CPU的计算任务了，让电脑跑得更快。

没有任何一家媒体在当时提到过，这东西将来会和AI有什么关系。

黄仁勋的这个决定，在当时看来简直像一个偏执狂的行为。消费市场只关心游戏画面好不好看、帧率够不够高。你往显卡里塞什么CUDA、什么可编程能力，消费者完全不买账，他们的需求很单一——玩游戏不卡就行。

然而，这个“画蛇添足”的CUDA功能却导致单卡制造成本上升了一半。英伟达的整体毛利率下滑到了35%，远低于他们此前的水平。

更要命的是，2008年全球金融危机袭来。显卡销量断崖式下跌，英伟达的股价一度跌到了每股1.5美元的历史性低谷，比AMD最惨的时候还要惨。整整一夜之间，账面上的钱几乎烧光了。

当时所有华尔街的分析师都在说同一句话：黄仁勋疯了。你做游戏显卡的，掺和什么通用计算的事？这不是自己给自己加成本、自寻死路吗？

黄仁勋没有理会这些声音。他甚至说了一句在当时显得极其荒谬的话：

“GPU不仅能画图，它能加速任何并行计算。”

他把这个执念持续了整整二十年。2026年3月，黄仁勋在GTC大会上宣布，CUDA架构已诞生二十周年，在全球构建了数亿台运行CUDA的GPU和计算系统。

当一个决策的回报要以“十年”为单位来计量的时候，这个世界上的绝大多数人是没有那个耐心、也没有那个勇气去坚持的。

这就是《浪潮之巅》里所说的那种“技术远见”——一家公司真正的护城河，不是它今天在做什么，而是它在十年前用全副身家押注的那个方向，今天终于被历史证明是对的。

但2006年的黄仁勋并不知道他的显卡以后会被AI研究者大规模使用。

他只是坚信“并行计算”会在更广阔的天地里派上用场。

那AI圈是什么时候、由谁把这两个世界连接起来的呢？

六

2006年7月，加拿大多伦多大学的杰弗里·辛顿教授在《神经计算》期刊上发表了论文《深度信念网络的快速学习算法》。

这篇论文的核心其实很简单：“我们可以用逐层预训练的方法，让深层的神经网络学会自己提取高阶特征。”

“逐层预训练”是什么概念呢？就是一层一层地训练。先训练第一层，让它学会看最基本的边缘、轮廓；然后拿第一层的输出结果去训练第二层，让它学会把这些边缘轮廓组合成简单的形状；再拿第二层的输出结果去训练第三层，以此类推。

这样一来，你就不再需要人类手工设计“特征提取器”——以前你需要自己写算法来告诉机器“眼睛是什么样的”“猫耳朵是什么样的”——神经网络自己就能从海量数据中把这些特征学出来。这叫“无监督的特征学习”，是深度学习领域一个极其重要的突破。

辛顿论文的发表，可以看作是“深度学习”真正意义上的元年。神经网络这条被明斯基“判了死刑”的技术路线，终于在二十多年后等到了回春的第一缕阳光。

但这个故事到此还没有迎来真正的高潮。

真正的高潮，发生在六年之后，在多伦多大学同一间实验室里，由辛顿的两位博士生亲手引爆。

2012年，深度学习界公认的“分水岭之年”。

那一年10月，辛顿教授的两个博士生——亚历克斯·克里哲夫斯基和伊利亚·苏茨克维——在当年的ILSVRC图像识别大赛中，基于辛顿2006年的理论框架，引入了多层的卷积神经网络，并将其命名为AlexNet。

这个网络什么概念呢？它是当时计算机视觉领域有史以来规模最大的卷积神经网络之一，由5个卷积层和3个全连接层组成，总共有六千多万个神经元参数。

它训练用的是两块NVIDIA的GTX 580 3GB显卡，因为当时的单卡显存根本装不下整个网络，只能把网络切成两块GPU来并联训练。

两台“显卡”放在那个不到十平方米的博士生宿舍里，嗡嗡嗡转了好几天。

你觉得“不起眼”这个词用在这合适吗？

太合适了。一个后来颠覆了整个AI行业的大事件，整个硬件配置就是：一个博士生宿舍，两块显卡，一篇前辈的理论论文。

但结果让整个学术圈炸了锅。

在ImageNet那个百万量级、一千个分类级别的超大规模图像数据集上，AlexNet一举拿下了ILSVRC-2012的冠军——top-5测试错误率15.3%。这个成绩意味着模型在一幅图片的五个预测标签中，只要有一个猜对了就算正确，15.3%就是这上面的错误率。

你知道当年的第二名是什么成绩吗？

26.2%。

AlexNet直接把错误率压低了整整11个百分点。

两年前的2010年，非深度学习的方法最好的错误率是28.2%。AlexNet一次性把它打了将近一半。

这个差距有多大？打个比方：你在一场射击比赛里打中了9环，第二名的成绩是7环。这是一个断崖式的差距。在学术竞赛里，能把第二名甩开十几个百分点，这在2012年的图像识别领域，简直是天方夜谭。

这是一次标准的“降维打击”，在所有人还在研究手工特征时，你用GPU训练的卷积神经网络，直接换了一个全新的维度来竞争，对手完全不在你的节奏里。

2012年的这场比赛之所以重要，不在于一块奖牌，而在于它告诉了整个学术界和工业界一个铁的事实：

GPU + 大数据 + 多层次神经网络 = 当前这个时代最强大的认知模型构建路径。

2013年3月，谷歌迅速出手，收购了Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在2012年共同创立的DNNresearch公司。

这件事的意义是什么？这就是华尔街和硅谷对AI技术路线的一种赌注式的“站队”。谷歌这样的巨头愿意花真金白银来锁定辛顿团队的知识产权和人才储备，就说明一个信号已经非常明确了——“数据驱动 + 深度学习”这条路，不是学术圈里的小打小闹，这是整个科技行业未来的主战场。

但从“看懂图像”到“理解语言”，还有一步之遥。

这一步，是2017年跨过去的。

七

如果说AlexNet是在计算机“眼睛”这个层级上展示了一场彻头彻尾的革命，那么五年之后，AI领域会迎来一场在“语言理解”层级的、更为彻底的、完全摧毁旧范式的革命。

2017年6月12日，谷歌大脑团队的8位研究人员——阿希什·瓦斯瓦尼、诺姆·沙泽尔、尼基·帕尔马、雅各布·乌兹科雷特、利翁·琼斯、艾丹·N·戈麦斯、卢卡什·凯泽和伊利亚·波洛苏欣——在arXiv预印本平台上发布了一篇论文，标题非常“朴实无华”：《Attention Is All You Need》。

这个标题软到什么程度呢？如果你是一个长期关注AI学术前沿的人，看到这个标题，你的第一反应可能是“又一篇关于注意力机制的论文，没什么稀奇的”。

公关部门不会起这种名字的。你想想，如果让你来取标题，你可能会写成：“打破语言处理的传统范式！基于纯粹注意力机制的Transformer架构重磅推出！模型效果全面碾压RNN结构！”

但科学家就是科学家，他们把这篇彻底改写历史的革命性论文，用一个充满了“文艺气质”的名字给装裱了起来。

Transformer到底是什么？

它和以前的循环神经网络到底有什么本质上的不同？

我举一个你一听就懂的比喻：

以前的循环神经网络处理一长段文字，就像一个人一个字一个字地读文章，读的时候要把前一个字的信息“记住”，再传给下一个字，以此类推下去。你的记忆长度再强大，这种线性的传递结构最终也会有“损耗”。所以以前的RNN在分析长句子的时候，读到后面就把开头的内容忘得七七八八了。学术上这叫“长期遗忘问题”。

而Transformer的“注意力机制”是怎么样运作的呢？你想象一下：

你把一整篇文章的全部文字全都铺在你的办公桌上，每一段文字之间都用一条带箭头的线标出它们之间的语义关联，不管这些文字在文章中的相隔距离有多远。在多么长的段落里，任何两个词之间的关联度都可以被“直接建立起来”，不需要字字传递，不需要累死累活地“备份记忆”。

这就是为什么Transformer架构在处理长篇文本方面的能力远远碾压了之前的RNN。

但这不是故事的全部。

Transformer架构还有一个更惊人的优势：它完全适合并行计算。 RNN必须一个一个推，GPU的并行计算能力在RNN上根本施展不开。而Transformer的计算模式决定了它可以被高效地运行在GPU上——成百上千个计算单元同时运算，在大规模语料上训练，海量对海量，矩阵乘矩阵。说白了，GPU有多大劲，Transformer就让你使多大力。

这就是所谓的“力大砖飞”——只要你算力足够大、数据足够大、模型足够大，Transformer架构能把算力和数据的增益线性地转化为智能表现。

这篇论文的影响力有多恐怖？

2023年6月，论文发表6周年之际，引用量约为7.7万次。到2025年6月，Transformer的8岁生日，引用量已经飙升至18.4万次。两年时间翻了两倍多。

到2026年，这篇论文的引用量预计将突破20万次，跻身21世纪被引用最多的科学论文之列。

你看明白这个链条了吗？

1950年图灵写了那篇论文——定了一个七十年无人能绕开的标准。

1956年达特茅斯会议——一群人拍脑袋说“咱们研究AI吧”。

1969年明斯基的《感知机》给神经网络按下了暂停键——十几年没人敢碰。

2006年辛顿重启了深度信念网络——概念先出来。

2006年黄仁勋搞CUDA——本质上在给后来的AI堆算力底座。

2012年AlexNet——验证了这个技术路线的可行性。

2017年Transformer——把整个架构底层逻辑重新写了一遍。