来源:市场资讯

(来源:图灵人工智能)

您想知道的人工智能干货,第一时间送达

打开网易新闻 查看精彩图片

在大脑皮层中,大约有160亿个神经元通过错综复杂的网络进行着信息的传递与处理。

神经元通过树突接收来自无数个突触前细胞的电化学信号,并在胞体中进行整合。

若综合电位超过某一阈值,则通过轴突向后续神经元输出一个动作电位。

打开网易新闻 查看精彩图片

这一“全或无”的放电机制,构成了生物神经系统信息处理的基本单元。

然而,如何用数学语言精确刻画这一微观过程?如何将一个生物神经元的行为抽象为可计算的数学模型?

这一问题不仅是计算神经科学的核心议题,更是整个人工智能领域中深度学习的理论基石。

文章速览

ARITCLE CONTENTS

PART .01 >>>

线性加权和

PART .02 >>>

非线性激活函数

PART .03 >>>

从阶跃到Sigmoid

01

线性加权和

感知机的数学基础及其几何解释

从20世纪40年代McCulloch和Pitts首次提出形式神经元,到Rosenblatt的感知机,再到现代深度神经网络中各式各样的激活函数。

打开网易新闻 查看精彩图片

神经元的数学建模经历了一条从线性到非线性、从离散到连续、从简单阈值到可微函数的清晰演化路径。

该模型将生物神经元的信息处理过程抽象为两个主要阶段:

接收来自多个突触前神经元的输入信号

对这些输入进行加权求和并与阈值进行比较。

这一思想在后来的感知机(Perceptron)模型中得到了更为系统的数学表达。

假设一个神经元接收来自前一层个神经元的输入信号,记输入向量为,每个输入分量对应一条输入通道。

其中,每条输入通道都被赋予一个权重参数,记权重向量为。

打开网易新闻 查看精彩图片

此外,神经元还包含一个偏置项,其生物学对应物是神经元激活阈值的负值。则该神经元的净输入(net input)定义为:

上述表达式构成了神经元计算的核心——线性加权和。

从几何视角审视,表示输入向量在权重向量方向上的投影与模长的乘积。

更精确地说,若记 为 与 之间的夹角,则:

由此可见,线性加权和本质上衡量了输入向量与权重向量的对齐程度:

当与方向一致时,点积取最大值;当两者正交时,点积为零;当两者方向相反时,点积为负值。

打开网易新闻 查看精彩图片

偏置项 则起到了平移决策边界的作用——它使得分类超平面不再被迫通过原点,从而显著提升了模型的表达能力。

在感知机模型中,神经元的输出由净输入经过一个阶跃函数(step function)得到:

这一输出规则对应于将输入空间划分为两个半空间:超平面构成了两类样本之间的决策边界。

打开网易新闻 查看精彩图片

值得强调的是,单个感知机只能解决线性可分问题,如逻辑与(AND)、逻辑或(OR)等;而对于线性不可分问题(如异或XOR),单层感知机则无能为力。

这一局限性在1969年由Minsky和Papert在其著作《Perceptrons》中从数学上予以证明,并直接导致了神经网络研究在随后近十年间的相对沉寂。

02

非线性激活函数

从函数空间的角度论证

假设我们构建一个多层的前馈神经网络,其中每一层神经元的输出直接等于其净输入,即激活函数为恒等函数(identity function)。

则对于第一层神经元,其输出为:

第二层神经元的输出为:

则 。

打开网易新闻 查看精彩图片

依此类推,对于任意层网络,其最终输出可以表示为:

(偏置的线性组合)

这一推导揭示了一个深刻且关键的结论:

在没有非线性激活函数的情况下,任意深度的多层线性网络在数学上与单层线性变换完全等价。

换言之,深层结构并没有带来任何函数表达能力的增益——整个网络依然只能表示输入向量 的线性函数。

从函数空间的角度审视,令 表示 层线性网络所能表示的所有函数的集合,则有:

其中 为输入维度, 为输出维度。显然, 与层数 无关——这是一个极其受限的函数类。

打开网易新闻 查看精彩图片

相比之下,当引入非线性激活函数后,多层网络可以逼近极为广泛的函数类。

这一性质在数学上由万能逼近定理(Universal Approximation Theorem)所刻画:

对于满足一定条件的非线性激活函数(如Sigmoid、ReLU等),一个包含足够多隐藏神经元的前馈神经网络,可以以任意精度逼近定义在 紧致子集上的任意连续函数。

打开网易新闻 查看精彩图片

因此,非线性激活函数的存在从根本上改变了网络的表达范式:

将线性变换的复合转变为仿射变换与非线性映射的交替复合,使得每一层都能在前一层特征空间的基础上进行非线性重组。

这种层级化的非线性表达正是深度神经网络在图像识别、自然语言处理等复杂任务中取得突破性成功的数学根源。

03

从阶跃到Sigmoid

连续性对参数学习的关键作用

在原始感知机模型中,激活函数选用的是阶跃函数:

从生物学的角度来看,阶跃函数很好地模拟了神经元的“全或无”(all-or-none)放电特性——当膜电位超过阈值时产生动作电位,否则保持静息状态。

打开网易新闻 查看精彩图片

然而,从数学优化的角度来看,阶跃函数存在一个根本性缺陷:在整个定义域上几乎处处导数为零。

具体而言,阶跃函数的导数在 处为0,在 处不可导(导数不存在)。

在基于梯度的优化方法中,参数更新的依据是损失函数对参数的偏导数,而这些偏导数通过链式法则依赖于激活函数的导数。

对于阶跃函数,由于:

几乎处处

导致梯度无法有效传播。

这意味着,当使用梯度下降法训练感知机时,我们无法获得关于权重和偏置的有效梯度信息。

感知机实际上采用了一种不同于梯度下降的学习规则——感知机收敛算法(Perceptron Convergence Algorithm),该算法仅在数据线性可分的条件下保证收敛,且不适用于多层结构。

打开网易新闻 查看精彩图片

为了解决这一问题,需要引入光滑的、处处可导的非线性激活函数。Sigmoid函数(也称逻辑斯蒂函数)是最具代表性的选择之一,其定义为:

Sigmoid函数具有若干优良的数学性质:

1. 光滑性与处处可导性:Sigmoid函数在上无限可微。其导数为:

这一简洁的表达式将导数用函数值自身表示,在计算上极为高效。

更重要的是,对于任意有限,导数均严格大于0,从而保证了非零梯度的存在。

2. 单调性与有界性:Sigmoid函数严格单调递增,且值域为。

这一性质使其输出可以自然地解释为概率,尤其适用于二分类问题的输出层。

3. 饱和区间的梯度消失问题:虽然Sigmoid解决了梯度处处为零的问题,但引入了另一个重要问题——梯度消失(vanishing gradient)。

当较大时(如或),Sigmoid函数进入饱和区,其导数趋近于0。

打开网易新闻 查看精彩图片

在深层网络中,梯度经过多层饱和Sigmoid的复合后可能指数级衰减,导致浅层参数难以更新。

从函数逼近的角度看,阶跃函数可以视为Sigmoid函数在温度参数趋近于零时的极限情形。

更一般地,考虑带温度参数的Sigmoid函数:

当时,逐点收敛于阶跃函数(在处收敛至1/2)。

这一关系表明,Sigmoid函数可以看作阶跃函数的光滑近似,它既保留了阶跃函数的单调S型曲线形态,又提供了优化所需的梯度信息。

打开网易新闻 查看精彩图片

除Sigmoid外,现代深度学习中还广泛使用其他激活函数,如tanh(双曲正切,输出范围)、ReLU(修正线性单元,)及其变体。

这些函数的设计均遵循了同一核心原则:在保持非线性的同时,确保梯度能够有效反向传播。其中ReLU在正半轴导数为常数1,有效缓解了梯度消失问题,已成为深度卷积网络中的默认选择。

结语

沿着从感知机到现代激活函数的技术演进脉络,我们可以清晰地识别出一条贯穿始终的逻辑主线:

神经元的数学模型并非生物神经元的忠实复刻,而是在优化理论的约束下不断演化的计算抽象。

纵观历史,神经元建模经历了从神经科学启发,到被数学优化驱动逐步脱离生物原型,再到工程成功反推对神经信息处理机制再审视的过程。