神经元（Neuron）：一个关于信号与阈值的数学模型

新浪财经

2026-04-17 00:31 ·北京 ·优质财经领域创作者

来源：市场资讯

（来源：图灵人工智能）

您想知道的人工智能干货，第一时间送达

在大脑皮层中，大约有160亿个神经元通过错综复杂的网络进行着信息的传递与处理。

神经元通过树突接收来自无数个突触前细胞的电化学信号，并在胞体中进行整合。

若综合电位超过某一阈值，则通过轴突向后续神经元输出一个动作电位。

这一“全或无”的放电机制，构成了生物神经系统信息处理的基本单元。

然而，如何用数学语言精确刻画这一微观过程？如何将一个生物神经元的行为抽象为可计算的数学模型？

这一问题不仅是计算神经科学的核心议题，更是整个人工智能领域中深度学习的理论基石。

文章速览

ARITCLE CONTENTS

PART .01 >>>

线性加权和

PART .02 >>>

非线性激活函数

PART .03 >>>

从阶跃到Sigmoid

01

线性加权和

感知机的数学基础及其几何解释

从20世纪40年代McCulloch和Pitts首次提出形式神经元，到Rosenblatt的感知机，再到现代深度神经网络中各式各样的激活函数。

神经元的数学建模经历了一条从线性到非线性、从离散到连续、从简单阈值到可微函数的清晰演化路径。

该模型将生物神经元的信息处理过程抽象为两个主要阶段：

接收来自多个突触前神经元的输入信号；

对这些输入进行加权求和并与阈值进行比较。

这一思想在后来的感知机（Perceptron）模型中得到了更为系统的数学表达。

假设一个神经元接收来自前一层个神经元的输入信号，记输入向量为，每个输入分量对应一条输入通道。

其中，每条输入通道都被赋予一个权重参数，记权重向量为。

此外，神经元还包含一个偏置项，其生物学对应物是神经元激活阈值的负值。则该神经元的净输入（net input）定义为：

上述表达式构成了神经元计算的核心——线性加权和。

从几何视角审视，表示输入向量在权重向量方向上的投影与模长的乘积。

更精确地说，若记为与之间的夹角，则：

由此可见，线性加权和本质上衡量了输入向量与权重向量的对齐程度：

当与方向一致时，点积取最大值；当两者正交时，点积为零；当两者方向相反时，点积为负值。

偏置项则起到了平移决策边界的作用——它使得分类超平面不再被迫通过原点，从而显著提升了模型的表达能力。

在感知机模型中，神经元的输出由净输入经过一个阶跃函数（step function）得到：

这一输出规则对应于将输入空间划分为两个半空间：超平面构成了两类样本之间的决策边界。

值得强调的是，单个感知机只能解决线性可分问题，如逻辑与（AND）、逻辑或（OR）等；而对于线性不可分问题（如异或XOR），单层感知机则无能为力。

这一局限性在1969年由Minsky和Papert在其著作《Perceptrons》中从数学上予以证明，并直接导致了神经网络研究在随后近十年间的相对沉寂。

02

非线性激活函数

从函数空间的角度论证

假设我们构建一个多层的前馈神经网络，其中每一层神经元的输出直接等于其净输入，即激活函数为恒等函数（identity function）。

则对于第一层神经元，其输出为：

第二层神经元的输出为：

则。

依此类推，对于任意层网络，其最终输出可以表示为：

（偏置的线性组合）

这一推导揭示了一个深刻且关键的结论：

在没有非线性激活函数的情况下，任意深度的多层线性网络在数学上与单层线性变换完全等价。

换言之，深层结构并没有带来任何函数表达能力的增益——整个网络依然只能表示输入向量的线性函数。

从函数空间的角度审视，令表示层线性网络所能表示的所有函数的集合，则有：

其中为输入维度，为输出维度。显然，与层数无关——这是一个极其受限的函数类。

相比之下，当引入非线性激活函数后，多层网络可以逼近极为广泛的函数类。

这一性质在数学上由万能逼近定理（Universal Approximation Theorem）所刻画：

对于满足一定条件的非线性激活函数（如Sigmoid、ReLU等），一个包含足够多隐藏神经元的前馈神经网络，可以以任意精度逼近定义在紧致子集上的任意连续函数。

因此，非线性激活函数的存在从根本上改变了网络的表达范式：

将线性变换的复合转变为仿射变换与非线性映射的交替复合，使得每一层都能在前一层特征空间的基础上进行非线性重组。

这种层级化的非线性表达正是深度神经网络在图像识别、自然语言处理等复杂任务中取得突破性成功的数学根源。

03

从阶跃到Sigmoid

连续性对参数学习的关键作用

在原始感知机模型中，激活函数选用的是阶跃函数：

从生物学的角度来看，阶跃函数很好地模拟了神经元的“全或无”（all-or-none）放电特性——当膜电位超过阈值时产生动作电位，否则保持静息状态。

然而，从数学优化的角度来看，阶跃函数存在一个根本性缺陷：在整个定义域上几乎处处导数为零。

具体而言，阶跃函数的导数在处为0，在处不可导（导数不存在）。

在基于梯度的优化方法中，参数更新的依据是损失函数对参数的偏导数，而这些偏导数通过链式法则依赖于激活函数的导数。

对于阶跃函数，由于：

几乎处处

导致梯度无法有效传播。

这意味着，当使用梯度下降法训练感知机时，我们无法获得关于权重和偏置的有效梯度信息。

感知机实际上采用了一种不同于梯度下降的学习规则——感知机收敛算法（Perceptron Convergence Algorithm），该算法仅在数据线性可分的条件下保证收敛，且不适用于多层结构。

为了解决这一问题，需要引入光滑的、处处可导的非线性激活函数。Sigmoid函数（也称逻辑斯蒂函数）是最具代表性的选择之一，其定义为：

Sigmoid函数具有若干优良的数学性质：

1. 光滑性与处处可导性：Sigmoid函数在上无限可微。其导数为：

这一简洁的表达式将导数用函数值自身表示，在计算上极为高效。

更重要的是，对于任意有限，导数均严格大于0，从而保证了非零梯度的存在。

2. 单调性与有界性：Sigmoid函数严格单调递增，且值域为。

这一性质使其输出可以自然地解释为概率，尤其适用于二分类问题的输出层。

3. 饱和区间的梯度消失问题：虽然Sigmoid解决了梯度处处为零的问题，但引入了另一个重要问题——梯度消失（vanishing gradient）。

当较大时（如或），Sigmoid函数进入饱和区，其导数趋近于0。

在深层网络中，梯度经过多层饱和Sigmoid的复合后可能指数级衰减，导致浅层参数难以更新。

从函数逼近的角度看，阶跃函数可以视为Sigmoid函数在温度参数趋近于零时的极限情形。

更一般地，考虑带温度参数的Sigmoid函数：

当时，逐点收敛于阶跃函数（在处收敛至1/2）。

这一关系表明，Sigmoid函数可以看作阶跃函数的光滑近似，它既保留了阶跃函数的单调S型曲线形态，又提供了优化所需的梯度信息。

除Sigmoid外，现代深度学习中还广泛使用其他激活函数，如tanh（双曲正切，输出范围）、ReLU（修正线性单元，）及其变体。

这些函数的设计均遵循了同一核心原则：在保持非线性的同时，确保梯度能够有效反向传播。其中ReLU在正半轴导数为常数1，有效缓解了梯度消失问题，已成为深度卷积网络中的默认选择。

结语

沿着从感知机到现代激活函数的技术演进脉络，我们可以清晰地识别出一条贯穿始终的逻辑主线：

神经元的数学模型并非生物神经元的忠实复刻，而是在优化理论的约束下不断演化的计算抽象。

纵观历史，神经元建模经历了从神经科学启发，到被数学优化驱动逐步脱离生物原型，再到工程成功反推对神经信息处理机制再审视的过程。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴