来源:市场资讯
(来源:图灵人工智能)
您想知道的人工智能干货,第一时间送达
在大脑皮层中,大约有160亿个神经元通过错综复杂的网络进行着信息的传递与处理。
神经元通过树突接收来自无数个突触前细胞的电化学信号,并在胞体中进行整合。
若综合电位超过某一阈值,则通过轴突向后续神经元输出一个动作电位。
这一“全或无”的放电机制,构成了生物神经系统信息处理的基本单元。
然而,如何用数学语言精确刻画这一微观过程?如何将一个生物神经元的行为抽象为可计算的数学模型?
这一问题不仅是计算神经科学的核心议题,更是整个人工智能领域中深度学习的理论基石。
文章速览
ARITCLE CONTENTS
PART .01 >>>
线性加权和
PART .02 >>>
非线性激活函数
PART .03 >>>
从阶跃到Sigmoid
01
线性加权和
感知机的数学基础及其几何解释
从20世纪40年代McCulloch和Pitts首次提出形式神经元,到Rosenblatt的感知机,再到现代深度神经网络中各式各样的激活函数。
神经元的数学建模经历了一条从线性到非线性、从离散到连续、从简单阈值到可微函数的清晰演化路径。
该模型将生物神经元的信息处理过程抽象为两个主要阶段:
接收来自多个突触前神经元的输入信号;
对这些输入进行加权求和并与阈值进行比较。
这一思想在后来的感知机(Perceptron)模型中得到了更为系统的数学表达。
假设一个神经元接收来自前一层个神经元的输入信号,记输入向量为,每个输入分量对应一条输入通道。
其中,每条输入通道都被赋予一个权重参数,记权重向量为。
此外,神经元还包含一个偏置项,其生物学对应物是神经元激活阈值的负值。则该神经元的净输入(net input)定义为:
上述表达式构成了神经元计算的核心——线性加权和。
从几何视角审视,表示输入向量在权重向量方向上的投影与模长的乘积。
更精确地说,若记 为 与 之间的夹角,则:
由此可见,线性加权和本质上衡量了输入向量与权重向量的对齐程度:
当与方向一致时,点积取最大值;当两者正交时,点积为零;当两者方向相反时,点积为负值。
偏置项 则起到了平移决策边界的作用——它使得分类超平面不再被迫通过原点,从而显著提升了模型的表达能力。
在感知机模型中,神经元的输出由净输入经过一个阶跃函数(step function)得到:
这一输出规则对应于将输入空间划分为两个半空间:超平面构成了两类样本之间的决策边界。
值得强调的是,单个感知机只能解决线性可分问题,如逻辑与(AND)、逻辑或(OR)等;而对于线性不可分问题(如异或XOR),单层感知机则无能为力。
这一局限性在1969年由Minsky和Papert在其著作《Perceptrons》中从数学上予以证明,并直接导致了神经网络研究在随后近十年间的相对沉寂。
02
非线性激活函数
从函数空间的角度论证
假设我们构建一个多层的前馈神经网络,其中每一层神经元的输出直接等于其净输入,即激活函数为恒等函数(identity function)。
则对于第一层神经元,其输出为:
第二层神经元的输出为:
则 。
依此类推,对于任意层网络,其最终输出可以表示为:
(偏置的线性组合)
这一推导揭示了一个深刻且关键的结论:
在没有非线性激活函数的情况下,任意深度的多层线性网络在数学上与单层线性变换完全等价。
换言之,深层结构并没有带来任何函数表达能力的增益——整个网络依然只能表示输入向量 的线性函数。
从函数空间的角度审视,令 表示 层线性网络所能表示的所有函数的集合,则有:
其中 为输入维度, 为输出维度。显然, 与层数 无关——这是一个极其受限的函数类。
相比之下,当引入非线性激活函数后,多层网络可以逼近极为广泛的函数类。
这一性质在数学上由万能逼近定理(Universal Approximation Theorem)所刻画:
对于满足一定条件的非线性激活函数(如Sigmoid、ReLU等),一个包含足够多隐藏神经元的前馈神经网络,可以以任意精度逼近定义在 紧致子集上的任意连续函数。
因此,非线性激活函数的存在从根本上改变了网络的表达范式:
将线性变换的复合转变为仿射变换与非线性映射的交替复合,使得每一层都能在前一层特征空间的基础上进行非线性重组。
这种层级化的非线性表达正是深度神经网络在图像识别、自然语言处理等复杂任务中取得突破性成功的数学根源。
03
从阶跃到Sigmoid
连续性对参数学习的关键作用
在原始感知机模型中,激活函数选用的是阶跃函数:
从生物学的角度来看,阶跃函数很好地模拟了神经元的“全或无”(all-or-none)放电特性——当膜电位超过阈值时产生动作电位,否则保持静息状态。
然而,从数学优化的角度来看,阶跃函数存在一个根本性缺陷:在整个定义域上几乎处处导数为零。
具体而言,阶跃函数的导数在 处为0,在 处不可导(导数不存在)。
在基于梯度的优化方法中,参数更新的依据是损失函数对参数的偏导数,而这些偏导数通过链式法则依赖于激活函数的导数。
对于阶跃函数,由于:
几乎处处
导致梯度无法有效传播。
这意味着,当使用梯度下降法训练感知机时,我们无法获得关于权重和偏置的有效梯度信息。
感知机实际上采用了一种不同于梯度下降的学习规则——感知机收敛算法(Perceptron Convergence Algorithm),该算法仅在数据线性可分的条件下保证收敛,且不适用于多层结构。
为了解决这一问题,需要引入光滑的、处处可导的非线性激活函数。Sigmoid函数(也称逻辑斯蒂函数)是最具代表性的选择之一,其定义为:
Sigmoid函数具有若干优良的数学性质:
1. 光滑性与处处可导性:Sigmoid函数在上无限可微。其导数为:
这一简洁的表达式将导数用函数值自身表示,在计算上极为高效。
更重要的是,对于任意有限,导数均严格大于0,从而保证了非零梯度的存在。
2. 单调性与有界性:Sigmoid函数严格单调递增,且值域为。
这一性质使其输出可以自然地解释为概率,尤其适用于二分类问题的输出层。
3. 饱和区间的梯度消失问题:虽然Sigmoid解决了梯度处处为零的问题,但引入了另一个重要问题——梯度消失(vanishing gradient)。
当较大时(如或),Sigmoid函数进入饱和区,其导数趋近于0。
在深层网络中,梯度经过多层饱和Sigmoid的复合后可能指数级衰减,导致浅层参数难以更新。
从函数逼近的角度看,阶跃函数可以视为Sigmoid函数在温度参数趋近于零时的极限情形。
更一般地,考虑带温度参数的Sigmoid函数:
当时,逐点收敛于阶跃函数(在处收敛至1/2)。
这一关系表明,Sigmoid函数可以看作阶跃函数的光滑近似,它既保留了阶跃函数的单调S型曲线形态,又提供了优化所需的梯度信息。
除Sigmoid外,现代深度学习中还广泛使用其他激活函数,如tanh(双曲正切,输出范围)、ReLU(修正线性单元,)及其变体。
这些函数的设计均遵循了同一核心原则:在保持非线性的同时,确保梯度能够有效反向传播。其中ReLU在正半轴导数为常数1,有效缓解了梯度消失问题,已成为深度卷积网络中的默认选择。
结语
沿着从感知机到现代激活函数的技术演进脉络,我们可以清晰地识别出一条贯穿始终的逻辑主线:
神经元的数学模型并非生物神经元的忠实复刻,而是在优化理论的约束下不断演化的计算抽象。
纵观历史,神经元建模经历了从神经科学启发,到被数学优化驱动逐步脱离生物原型,再到工程成功反推对神经信息处理机制再审视的过程。
热门跟贴