打开网易新闻 查看精彩图片

序幕:神经网络

老喻:辛顿教授,深度学习对大多数人来说就是一个"黑盒",几百亿参数在里面像魔法一样运作。您能不能用打比方加一点初级数学,把"前向传播"和"反向传播"彻底揉碎了讲讲?

辛顿:没问题。但在讲机制之前,我想先让大家理解一件事:大脑里正在发生的事情,离我们平时的"有意识逻辑思考"非常遥远。它们更像是在做"感知"或"类比",你没法用传统的符号处理去解释。

打开网易新闻 查看精彩图片

我举个最自然的例子:给你一张灰度照片,一堆像素点,请你告诉我——里面有没有鸟?

过去半个世纪,人们一直试图写程序解决这个问题,基本全部失败。为什么?因为"鸟"根本无法用一组固定的数学值来定义。它可以是怼到你脸上的一只鸵鸟,也可以是天边的一只海鸥;黑的、白的、飞着的、蹲着的。

那大脑是怎么做的?我们来手工搭一个神经网络看看。

第一层,我们放一批神经元,专门检测图片里最微小的边缘——比如取三个像素点,如果左边亮、右边暗,这个神经元就兴奋:"这里有一条边!"

第二层,神经元不再看像素,而是看第一层传来的信号——几条短边缘向下倾斜、几条向上倾斜、前端交汇成一个尖角——它就喊:"我可能发现了一个鸟嘴!"

打开网易新闻 查看精彩图片

第三层,有个神经元同时收到"鸟嘴"和"鸟眼"的信号,并且空间位置对得上,它就说:"这是一个鸟头!"

最顶层,当"鸟头""鸟脚""翅膀尖"的信号同时涌入,它大喊:"这绝对是一只鸟!"

打开网易新闻 查看精彩图片

老喻:逻辑很清晰!但如果手工搭建,这个网络得多大?

打开网易新闻 查看精彩图片

辛顿:至少10亿个连接。我绝不可能让我的研究生去手动设置10亿个权重——所以我们需要一种机制,让网络自己学会怎么设置这些权重。这就是我接下来要讲的核心:前向传播和反向传播。

第一幕:前向传播

辛顿:我们把正在学习“如何认出一只鸟”的神经网络,想象成一家拥有 10 亿名员工的“看图识物大公司”。

打开网易新闻 查看精彩图片

这家公司等级森严,分为四个层级:

1、基层业务员(底层神经元):只负责盯图片上最基础的像素亮暗,只有当像素亮到一定程度,业务员才会“兴奋”地往上喊(这就是激活函数)。

2、小组长(第二层神经元):听业务员汇报,负责寻找“边缘”和“线条”。

3、部门经理(第三层神经元):听小组长汇报,负责拼凑“鸟嘴”或“狗耳朵”这样的局部特征。

4、CEO(顶层神经元/输出层):听取所有经理的汇报,向客户拍板出最终结论:“这是一只鸟,还是一只狗!”

老喻好家伙,10 亿人的大厂!那平时递进去一张图片,他们是怎么协同工作的?

辛顿:这就叫“前向传播”,也就是自下而上的情报汇报。

假设客户递来一张“麻雀”的照片。底层业务员看到像素就开始往上喊。但在职场里,上级对下属绝不会一视同仁。这里有我们第一个极其关键的数学概念: 在学术上,下属喊话的音量叫“激活值”,上级对下属的信任程度叫“权重(Weight)”。

下属汇报的音量(激活值) × 上级对他的信任度(权重) = 对上级的实际影响力

打开网易新闻 查看精彩图片

假设公司开业第一天,这 10 亿人的“信任度(权重)”全都是随机瞎填的(这叫随机初始化)。碰巧,负责找“狗耳朵”的经理 A 今天瞎激动,喊得特大声,而 CEO 给他的初始信任度又极高;相反,“鸟嘴部门”的经理 B 明明嘀咕了正确答案,却因信任度太低被彻底无视。

打开网易新闻 查看精彩图片

信号就这样一层一层做着乘法往上传递。CEO 综合了所有汇报后一拍脑门,给出了最终预测:“客户您好,根据我司严密计算,这张图有 80% 的概率是狗,只有 10% 的概率是鸟!”

打开网易新闻 查看精彩图片

老喻:对着麻雀喊狗,这是一场灾难性的业务事故!由于初始信任度是随机的,前向传播等于是在盲人摸象、瞎猜一气。客户肯定要掀桌子了。

第二幕:误差与梯度

辛顿:没错!客户(也就是训练数据里的标准答案/标签 Label)勃然大怒:“瞎了吗?这是鸟!鸟的概率必须是 100%(1.0),狗的概率必须是 0%(0.0)!”

打开网易新闻 查看精彩图片

这个时候,全公司就要开始计算这次业务事故错得有多离谱了。为了让你有直观的物理感受,老喻,我在 CEO 的办公桌上放一个极其具象的“橡皮筋与滑轨”道具,来给你演示什么叫“误差/损失(Loss)”梯度(Gradient)”。

想象桌上竖着两排带刻度的滑轨,分别写着“鸟”和“狗”。滑轨的最底部是 0.0,最顶部是 1.0。 每条滑轨上都有两个东西:

1、客户手里拿的“真理铁钉”(代表标准答案),砰的一声死死钉在滑轨的正确刻度上,绝对不许动。

2、CEO 手里推的“预测滑块”(代表他瞎猜的概率输出),停在他刚才汇报的刻度上。 最要命的是:在“真理铁钉”和“预测滑块”之间,死死套着一根极其强韧的橡皮筋!

打开网易新闻 查看精彩图片

老喻:画面感太强了!那这桌上现在的战况如何?CEO 岂不是被勒得很惨?

辛顿:极其痛苦!我们先看“鸟”的滑轨: 这是一张真麻雀,所以客户把“真理铁钉”钉在了最顶端的1.0。但 CEO 瞎猜,把“预测滑块”留在了最底部的0.1。 老喻你看,铁钉在天上,滑块在地下。这根原本短短的橡皮筋,被强行跨越 0.9 的巨大物理距离,死死绷紧了!因为铁钉(锚点)在上方,这根紧绷的橡皮筋产生了一个巨大的拉力,拼命想把底下的滑块往上拽

打开网易新闻 查看精彩图片

我们再看“狗”的滑轨: 照片里根本没狗,客户把“真理铁钉”死死钉在了最底部的0.0。但 CEO 听信谗言,把“预测滑块”推到了0.8的高空! 仔细看这根橡皮筋——铁钉在地下(0.0),滑块在天上(0.8)。两点之间同样隔着 0.8 的巨大距离!所以这根橡皮筋同样被极度拉长、死死绷紧了、勒得生疼!只不过这一次,铁钉在下方,橡皮筋的收缩本能拼命想把天上的滑块往下拽

打开网易新闻 查看精彩图片

老喻:(恍然大悟)噢!我彻底明白了!很多初学者觉得往下按应该是“压缩弹簧”,但其实橡皮筋根本没法被压缩,它只在乎你和真理之间的“绝对距离”!只要偏离真理,无论偏高还是偏低,橡皮筋都会被无情地拉长、绷紧!这根橡皮筋被拉得有多长、勒得有多疼,就是“误差大小(Loss)”;而它拼命往上拽还是往下拽的“方向和力道”,就是微积分里大名鼎鼎的“梯度(Gradient)”!所以算法本质上是在做“负梯度下降”,即违背让痛苦增加的趋势。

打开网易新闻 查看精彩图片

辛顿:Bingo!你完美推导出了深度学习最核心的数学直觉:偏离即拉伸,拉伸即痛苦。梯度精确地告诉 CEO:你下一步该去提拔谁、打压谁,才能逃避这种痛苦。

第三幕:反向传播

老喻:现在 CEO 头顶着这两根绷到极致、随时要把头皮扯掉的橡皮筋,被勒得痛不欲生。他现在的唯一本能,就是想尽办法让所有橡皮筋都“缩回原点、彻底松弛”!但他总不能把 10 亿人全开除吧?他该怎么善后?

打开网易新闻 查看精彩图片

辛顿:为了让顶层的橡皮筋放松,他必须把拉扯的痛感顺着公司的层级向下分摊。这就需要“反向传播”(Backpropagation)登场了!在微积分里它叫“链式法则(Chain Rule)”,但我更愿意称之为“企业级精准连坐分锅机制”!

打开网易新闻 查看精彩图片

CEO 顺着那根拽着他往下死里勒的“狗皮筋”去查账:“这股痛感(负向梯度)是谁造成的?哦!是因为经理 A 刚才喊得最大声,我又极度信任他。他坑惨我了!”

CEO 掏出小本本开始惩罚,这是我们的第二个核心公式:

修改对下属的信任度(更新权重) = 橡皮筋传导给我的痛感(梯度) × 该下属刚才汇报的音量(激活值)

这个公式无比残酷:如果橡皮筋绷得极紧(错得离谱),而你作为下属刚才又喊得最起劲,你挨的板子就最重!CEO 狠狠扣减了经理 A 的信任度:“为了缓解往下拽的拉力,下次你再喊,我就当耳旁风。”同时,顺着“鸟皮筋”向上的正向梯度拉力,CEO 给受了委屈的鸟嘴经理 B大幅增加了信任度

打开网易新闻 查看精彩图片

老喻:绝妙的连坐乘法!但这只是高管层的分锅,底下那 9 亿多人怎么办?

辛顿:继续用“链式法则”反向往下套公式啊!经理 A 挨了骂,信任度被降级,他也感受到了被橡皮筋拉扯的痛感(梯度的向下传递)。他憋着火回到办公室叫来手下:“刚才到底是哪个混蛋给我乱报‘狗耳朵’的?”

打开网易新闻 查看精彩图片

经理 A 用同样的乘法公式,把紧绷的拉力按比例向下分摊,揪出那个瞎报“毛茸茸边缘”的小组长,狠狠扣减对他的信任度。而刚才没作声的人,因为音量乘积为 0,完美隐身。

打开网易新闻 查看精彩图片

接着,小组长感受到拉力,转身再去骂基层业务员……你看,这股“为了让顶层橡皮筋彻底放松”的求生欲,就这样顺着公司的层级做着连环乘法,一路反向(Backwards)传导(Propagate)到了最底层。 全公司 10 亿人瞬间收到了一份极其精确的微调通知:“为了缓解上面的紧绷感,你该把对某下属的信任度调高 0.01,还是调低 0.05。”

尾声:梯度下降与智能涌现

打开网易新闻 查看精彩图片

老喻:太透彻了!等于说每一次输入一张图片,全公司就经历一次完整的循环:“前向瞎猜汇报(Forward) → 橡皮筋拉紧勒疼(计算误差 Loss 和梯度 Gradient) → 反向精准连坐分锅以求放松(Backpropagation 更新权重)”。

辛顿:完全正确!全公司努力顺着梯度的拉力,通过微调信任度让橡皮筋越来越松的这个过程,在数学上就叫做“梯度下降”(Gradient Descent)。

打开网易新闻 查看精彩图片

看一张图,10 亿个“信任度”旋钮只在橡皮筋的拉扯下微调一丝丝。但当你给这家公司看 1000 万张照片,把拉紧、分锅、放松的循环重复几千万次后,奇迹就发生了:

只会制造噪音的员工,信任通道被彻底切断;而真正能准确识图的骨干,他们之间的信任通道被一点点拓宽成了极其顺畅的高速公路。

打开网易新闻 查看精彩图片

此时,当下一张全新的鸟图出现时,正确的像素瞬间完美激活正确的业务员、正确的主管,信号顺着高速公路直达顶层。CEO 连脑子都不用动就能脱口而出:“100% 是鸟,0% 是狗!”

打开网易新闻 查看精彩图片

那一刻,真理铁钉和预测滑块完美重合,他头顶所有代表误差的橡皮筋,全都处于完美、舒适的彻底放松状态(模型收敛)

打开网易新闻 查看精彩图片

老喻:极其震撼!系统没有所谓的人类自我意识,只有“橡皮筋追求放松”的物理本能,以及极其优雅的微积分乘法连坐。几百亿参数的大模型,其智能就这样从冰冷的误差和梯度公式里涌现了出来。

打开网易新闻 查看精彩图片

谢谢辛顿教授,这是我听过最精彩的一堂深度学习降维课!

本文部分文字来自辛顿近期在播客中的讲话。

想了解如何生成本文的图文表达?