当前位置：首页 > news >正文

DL：单层感知器与多层感知器的基本原理与实现

news 2026/6/5 21:01:38

单层感知器（Single-Layer Perceptron）与多层感知器（Multilayer Perceptron，MLP，也常称为多层感知机）是理解神经网络和深度学习的重要基础。它们展示了神经网络如何从简单的线性判断器，发展为能够学习复杂非线性关系的函数模型。

图 1：单层感知器与多层感知器的对比

单层感知器结构简单，主要用于理解人工神经元、权重、偏置、线性分类和决策边界。它可以从训练数据中学习一条线性分界线，但只能处理线性可分问题。

多层感知器则在单层感知器的基础上加入隐藏层和非线性激活函数，使模型能够学习更复杂的非线性关系。它是理解前向传播、损失函数、反向传播、梯度下降和现代深度神经网络的重要入口。

一、从人工神经元到单层感知器

人工神经元（Artificial Neuron）是神经网络中的基本计算单元。它的计算过程可以概括为三步：

• 接收多个输入特征

• 对输入特征加权求和，并加入偏置

• 通过阶跃函数或其他激活函数得到输出结果

图 2：人工神经元的计算过程示意图

假设输入特征为：

对应权重为：

偏置为：

神经元首先计算线性得分：

也可以写成向量形式：

其中：

• xᵢ 表示第 i 个输入特征

• wᵢ 表示第 i 个特征对应的权重

• b 表示偏置

• z 表示线性得分

• w · x 表示权重向量 w 与输入向量 x 的内积

如果使用阶跃函数把 z 转换为类别输出，就得到单层感知器的基本形式：

其中：

• ŷ 表示预测类别

• z ≥ 0 时，模型输出 1

• z < 0 时，模型输出 0

从直观上看，单层感知器就是一个“加权判断器”：它先判断每个特征的重要程度，再根据总分是否达到判断门槛输出类别。

例如，在判断一封邮件是否为垃圾邮件时，某些词语可能支持“垃圾邮件”判断，某些词语可能支持“正常邮件”判断。感知器会为这些特征分配不同权重，再根据最终得分完成分类。

二、单层感知器的结构与决策边界

单层感知器通常只有一层可学习权重，其结构可以概括为：

输入层 → 输出层

这里的“单层”主要指只有一层可学习参数。输入层只是接收数据，通常不计为可学习层。

单层感知器的判断依据是：

这个等式表示决策边界。

图 3：单层感知器的线性决策边界图

在二维特征空间中，设输入为 x₁ 和 x₂，则决策边界可以写为：

其中：

• x₁、x₂ 表示两个输入特征

• w₁、w₂ 表示两个特征对应的权重

• b 表示偏置

• w₁x₁ + w₂x₂ + b = 0 表示分类边界

在二维空间中，这个边界是一条直线；在三维空间中，它是一个平面；在更高维空间中，它是一个超平面。

如果：

模型预测为一类。

如果：

模型预测为另一类。

因此，单层感知器本质上是一个线性分类器。它适合处理线性可分问题，也就是不同类别的样本可以用一条直线、一个平面或一个超平面分开。

例如，在水果分类任务中：

• x₁ 可以表示颜色得分

• x₂ 可以表示甜度得分

单层感知器会学习一条直线，把“苹果”和“非苹果”尽量分开。

三、单层感知器如何学习参数

单层感知器的重要意义在于：它不是完全依赖人工规则，而是可以从训练数据中学习权重和偏置。

假设一个训练样本的输入为 x，真实类别为 y，模型预测类别为 ŷ。感知器的参数更新规则可以写为：

其中：

• w 表示权重向量

• b 表示偏置

• η 表示学习率

• y 表示真实类别

• ŷ 表示预测类别

• y − ŷ 表示预测误差

这个规则可以这样理解：

• 如果预测正确，则 y − ŷ = 0，参数不更新

• 如果正类被预测成负类，则 y − ŷ > 0，需要提高该样本方向上的得分

• 如果负类被预测成正类，则 y − ŷ < 0，需要降低该样本方向上的得分

从直观角度看，感知器每犯一次错误，就沿着减少错误的方向调整权重和偏置。

这体现了机器学习中的基本思想：模型不是让人手写所有规则，而是通过样本数据学习判断边界。

例如，在传统规则系统中，可能需要人工写出：如果邮件中出现“中奖”和“免费”，则判断为垃圾邮件。

而感知器的做法是：从大量已标注邮件中学习哪些词更重要，以及这些词应当具有多大的权重。

这正是从“规则驱动”走向“数据驱动”的关键一步。

四、单层感知器的局限：线性可分问题

单层感知器最大的局限是：它只能学习线性决策边界。

最经典的例子是 XOR 问题。

图 4：XOR 问题的线性不可分

XOR 的输入和输出如下：

0 XOR 0 = 00 XOR 1 = 11 XOR 0 = 11 XOR 1 = 0

如果把这四个点放在二维平面中：

• (0, 0) 和 (1, 1) 属于类别 0

• (0, 1) 和 (1, 0) 属于类别 1

两类样本分别位于对角位置，无法用一条直线分开。因此，单层感知器无法解决 XOR 问题。

这个例子说明，单层感知器只能完成一次线性切分，而许多真实任务需要更复杂的判断方式。

例如：

• 图像识别需要识别边缘、纹理、形状和物体结构

• 语音识别需要处理音素变化、时间顺序和上下文关系

• 文本理解需要建模词语含义、句法结构和语境信息

• 用户行为预测需要综合多种非线性因素

这些任务通常并不是简单线性可分的。要处理这类问题，就需要更强的非线性表达能力。

多层感知器正是在这一背景下发展起来的。

五、多层感知器的基本结构

多层感知器（Multilayer Perceptron，MLP）可以看作最典型、最基础的一类全连接前馈神经网络。它在输入层和输出层之间加入一个或多个隐藏层，使模型能够通过多层变换学习更复杂的函数关系。

典型结构可以表示为：

输入层 → 隐藏层 → 输出层

其中：

• 输入层接收原始特征

• 隐藏层学习中间表示

• 输出层给出最终预测结果

图 5：多层感知器的网络结构图

一个单隐藏层 MLP 可以写为：

其中：

• x 表示输入向量

• h 表示隐藏层输出

• ŷ 表示模型输出

• W₁ 表示输入层到隐藏层的权重矩阵

• b₁ 表示隐藏层偏置向量

• W₂ 表示隐藏层到输出层的权重矩阵

• b₂ 表示输出层偏置向量

• f 表示隐藏层激活函数

• g 表示输出层激活函数

与单层感知器相比，MLP 不再让输入直接连接到输出，而是先经过隐藏层完成特征变换。

这一步非常关键。隐藏层可以把原始输入转换为新的中间表示，使模型不再局限于原始输入空间中的线性边界。

从直观角度看：单层感知器是在原始空间中直接画一条直线；多层感知器则可以先改变数据的表示方式，再完成分类或预测。

六、隐藏层与非线性激活函数

MLP 能够处理非线性问题，关键在于两个因素：

• 隐藏层

• 非线性激活函数

图 6：隐藏层与非线性激活函数的作用

隐藏层会把原始输入转换为新的表示。假设原始输入为：

隐藏层可以学习到：

其中：

• x₁、x₂ 表示原始特征

• h₁、h₂、h₃、…、hₘ 表示隐藏层学习到的中间特征

• m 表示隐藏层神经元数量

这些中间特征不是原始输入的简单复制，而是经过权重、偏置和激活函数变换后得到的新表示。

不过，只有隐藏层还不够。如果每一层都只是线性变换，那么多层线性变换叠加后，仍然等价于一个线性变换：

其中：

• W₁ 表示第一层线性变换

• W₂ 表示第二层线性变换

• W₂W₁ 仍然是一个新的线性变换矩阵

这说明，如果没有非线性激活函数，即使堆叠很多层，整个网络仍然可以合并为一次线性变换，本质上仍是线性模型。

因此，MLP 必须在层与层之间引入非线性激活函数。

常见激活函数包括 Sigmoid、Tanh 和 ReLU。

Sigmoid 函数：

其中：

• σ(z) 表示 Sigmoid 输出

• z 表示线性得分

σ(z) 的输出范围是 0 到 1。

Tanh 函数：

其中：

• tanh(z) 表示双曲正切函数输出

• z 表示线性得分

tanh(z) 的输出范围是 −1 到 1。

ReLU 函数：

其中：

• ReLU(z) 表示修正线性单元输出

• z ≥ 0 时，ReLU(z) = z

• z < 0 时，ReLU(z) = 0

在现代深度学习中，隐藏层更常用 ReLU 或其变体。Sigmoid 和 Tanh 在入门讲解中仍然重要，但在深层网络中更容易受到梯度饱和问题影响。

可以简单理解为：隐藏层负责重新组织特征，非线性激活函数负责打破线性限制。

二者结合，才使 MLP 具备学习复杂非线性关系的能力。

七、多层感知器的输出层与损失函数

MLP 的输出层设计取决于任务类型。不同任务的输出形式不同，对应的损失函数也不同。

1、二分类任务

对于二分类任务，输出层常使用 Sigmoid 函数，将输出转换为 0 到 1 之间的概率：

其中：

• ŷ 表示预测为正类的概率

• z 表示输出层线性得分

• σ(z) 表示 Sigmoid 激活后的输出

如果 ŷ 越接近 1，模型越倾向于预测为正类；如果 ŷ 越接近 0，模型越倾向于预测为负类。

二分类任务常用二元交叉熵损失：

其中：

• L 表示损失

• n 表示样本数量

• yᵢ 表示第 i 个样本的真实类别

• ŷᵢ 表示第 i 个样本预测为正类的概率

• log 表示对数函数

2、多分类任务

对于多分类任务，输出层常使用 Softmax 函数，把多个类别的得分转换为概率分布：

其中：

• ŷₖ 表示样本属于第 k 类的预测概率

• zₖ 表示第 k 类对应的输出得分

• K 表示类别总数

• ∑ 表示对所有类别得分求和

多分类任务通常使用交叉熵损失。若真实类别为 c，则单个样本的损失可以写为：

其中：

• c 表示真实类别

• p_c 表示模型分配给真实类别 c 的预测概率

• −log p_c 表示真实类别对应的负对数损失

• p_c 越接近 1，损失越小

• p_c 越接近 0，损失越大

3、回归任务

对于回归任务，输出层通常直接输出连续值，不一定需要 Sigmoid 或 Softmax。

回归任务常用均方误差：

其中：

• L 表示损失

• n 表示样本数量

• yᵢ 表示第 i 个样本的真实值

• ŷᵢ 表示第 i 个样本的预测值

从实践角度看，输出层、激活函数和损失函数必须相互匹配：

• 二分类：Sigmoid + 二元交叉熵

• 多分类：Softmax + 交叉熵

• 回归：线性输出 + 均方误差或平均绝对误差

在现代深度学习框架中，输出层是否显式添加 Sigmoid 或 Softmax，还取决于损失函数实现。

例如，PyTorch 的 BCEWithLogitsLoss 已经包含 Sigmoid，CrossEntropyLoss 已经包含 LogSoftmax，因此模型通常直接输出 logits。

八、多层感知器的训练过程与使用注意事项

MLP 的训练通常由四个环节组成：

前向传播 → 计算损失 → 反向传播 → 参数更新

图 7：多层感知器训练流程图

1、前向传播

前向传播（Forward Propagation）是指输入数据从输入层开始，经过隐藏层，最终到达输出层。

对于单隐藏层 MLP，可以写为：

模型根据当前参数得到预测结果。

2、计算损失

损失函数衡量预测结果与真实结果之间的差距。

损失越小，说明模型预测越接近真实结果；损失越大，说明模型还需要继续调整参数。

3、反向传播

反向传播（Backpropagation）用于计算损失对每一层参数的梯度。例如：

其中：

• ∂L/∂W₁ 表示损失 L 对 W₁ 的梯度

• ∂L/∂b₁ 表示损失 L 对 b₁ 的梯度

• ∂L/∂W₂ 表示损失 L 对 W₂ 的梯度

• ∂L/∂b₂ 表示损失 L 对 b₂ 的梯度

反向传播本质上是链式法则在多层神经网络中的系统应用。它把输出层的误差逐层传回，使每一层都能获得自己的参数更新方向。

4、参数更新

得到梯度后，可以使用梯度下降更新参数：

其中：

• W 表示权重参数

• b 表示偏置参数

• η 表示学习率

• ∂L/∂W 表示损失对权重的梯度

• ∂L/∂b 表示损失对偏置的梯度

从直观角度看：前向传播负责给出预测，损失函数负责衡量误差，反向传播负责计算梯度，梯度下降负责修正参数。

经过大量样本和多轮训练后，MLP 会逐渐学习到更合适的权重和偏置。

5、使用注意事项

在实际使用 MLP 时，还需要注意以下几点。

第一，输入特征通常需要标准化。

MLP 对特征尺度较敏感，如果不同特征的数值范围差异很大，训练可能变慢或不稳定。

标准化通常可以写为：

其中：

• x 表示原始特征值

• x′ 表示标准化后的特征值

• μ 表示均值

• σ 表示标准差

第二，隐藏层不是越多越好。

隐藏层越多，模型表达能力通常越强，但也可能带来参数量增加、训练难度提高和过拟合风险。

第三，激活函数要根据任务和网络结构选择。

隐藏层中常用 ReLU 或其变体；二分类输出层常用 Sigmoid；多分类输出层常用 Softmax；回归任务通常使用线性输出。

第四，损失函数要与任务类型匹配。

分类任务和回归任务不能随意使用同一类损失函数。

第五，训练 MLP 时要关注过拟合。

常见方法包括减少隐藏层规模、使用正则化、使用早停、增加训练数据和合理控制训练轮数。

九、Python 示例

下面通过三个示例，从手写实现到工具库调用，帮助理解单层感知器和多层感知器的基本用法。

示例 1：使用 NumPy 实现单层感知器

下面的代码用 NumPy 实现一个简单的单层感知器，并让它学习 AND 逻辑。AND 逻辑是线性可分问题，因此单层感知器可以学习。

import numpy as np class Perceptron: """单层感知器（二分类）""" def __init__(self, lr=0.1, epochs=1000, random_state=42): self.lr = lr # 学习率 self.epochs = epochs # 迭代轮数 self.random_state = random_state # 随机种子 self.w_ = None # 权重向量 self.b_ = None # 偏置 def fit(self, X, y): """训练感知器，使用随机梯度下降""" rng = np.random.default_rng(self.random_state) self.w_ = rng.random(X.shape[1]) # 随机初始化权重 self.b_ = 0.0 for _ in range(self.epochs): for x_i, target in zip(X, y): prediction = self.predict(x_i) # 当前预测 update = self.lr * (target - prediction) # 误差乘以学习率 self.w_ += update * x_i # 更新权重 self.b_ += update # 更新偏置 return self def forward(self, X): """计算线性输出 z = w·x + b""" return np.dot(X, self.w_) + self.b_ def predict(self, X): """阶跃激活：输出 1 若 z≥0，否则 0""" return np.where(self.forward(X) >= 0, 1, 0) # AND 逻辑数据（真值表）X = np.array([ [0, 0], [0, 1], [1, 0], [1, 1]])y = np.array([0, 0, 0, 1]) # AND 运算结果 model = Perceptron(lr=0.1, epochs=50)model.fit(X, y) print("预测结果：", model.predict(X))print("权重：", model.w_)print("偏置：", model.b_)

此示例中：

• forward() 计算 z = w · x + b

• predict() 使用阶跃函数输出类别

• fit() 根据 y − ŷ 更新权重和偏置

• AND 逻辑线性可分，所以单层感知器可以学习

通常可以看到类似结果：

预测结果： [0 0 0 1]

这说明模型已经学会了 AND 逻辑的线性分类规则。

示例 2：使用 NumPy 实现简单多层感知器

下面的 BPNet 是为了帮助理解前向传播和反向传播的教学示例，并不是生产环境中的推荐实现。实际深度学习任务通常使用 PyTorch、TensorFlow 等框架自动计算梯度。

下面实现一个包含单个隐藏层的 MLP，并用它学习 XOR 逻辑。XOR 不是线性可分问题，单层感知器无法解决，但带隐藏层和非线性激活函数的 MLP 可以学习。

import numpy as np class BPNet: """一个简单的反向传播神经网络（2层：输入→隐藏→输出）""" def __init__(self, num_inputs, num_hiddens, num_outputs, lr=0.5, epochs=10000, random_state=42): # 随机初始化权重（范围[-1,1]），偏置初始为0 rng = np.random.default_rng(random_state) self.w1 = rng.random((num_inputs, num_hiddens)) * 2 - 1 self.b1 = np.zeros(num_hiddens) self.w2 = rng.random((num_hiddens, num_outputs)) * 2 - 1 self.b2 = np.zeros(num_outputs) self.lr = lr # 学习率 self.epochs = epochs # 训练轮数 def sigmoid(self, X): """Sigmoid激活函数""" return 1 / (1 + np.exp(-X)) def dsigmoid(self, X): """Sigmoid函数的导数（输入已是sigmoid输出）""" return X * (1 - X) def forward(self, X): """前向传播：返回(隐藏层输出, 最终输出)""" hidden_input = np.dot(X, self.w1) + self.b1 hidden = self.sigmoid(hidden_input) output_input = np.dot(hidden, self.w2) + self.b2 output = self.sigmoid(output_input) return hidden, output def update(self, X, y): """单次反向传播更新参数（使用批量梯度下降）""" hidden, output = self.forward(X) # 输出层误差项 δ_out = (out - y) * sigmoid'(out) output_error = output - y delta_out = output_error * self.dsigmoid(output) # 隐藏层误差项 δ_hidden = (δ_out · w2^T) * sigmoid'(hidden) hidden_error = np.dot(delta_out, self.w2.T) delta_hidden = hidden_error * self.dsigmoid(hidden) # 计算梯度 dw2 = np.dot(hidden.T, delta_out) db2 = np.sum(delta_out, axis=0) dw1 = np.dot(X.T, delta_hidden) db1 = np.sum(delta_hidden, axis=0) # 梯度下降更新参数 self.w2 -= self.lr * dw2 self.b2 -= self.lr * db2 self.w1 -= self.lr * dw1 self.b1 -= self.lr * db1 def fit(self, X, y): """训练网络：反复调用update""" for _ in range(self.epochs): self.update(X, y) return self def predict(self, X): """预测类别（阈值0.5）""" _, output = self.forward(X) return (output >= 0.5).astype(int) # XOR 逻辑数据（异或问题）X = np.array([ [0, 0], [0, 1], [1, 0], [1, 1]])y = np.array([[0], [1], [1], [0]]) # 期望输出 model = BPNet( num_inputs=2, num_hiddens=4, # 隐藏层神经元数 num_outputs=1, lr=0.5, epochs=10000) model.fit(X, y) print("预测概率：")print(model.forward(X)[1]) # 输出层sigmoid值print("预测类别：")print(model.predict(X))

此示例中：

• 输入层有 2 个节点

• 隐藏层有 4 个神经元

• 输出层有 1 个神经元

• Sigmoid 引入非线性

• 反向传播用于计算梯度并更新参数

• MLP 可以学习 XOR 这种非线性模式

需要注意，由于网络参数随机初始化，隐藏层规模、学习率和训练轮数都可能影响 XOR 的训练结果。如果结果不理想，可以适当调整随机种子、隐藏层神经元数量、学习率或训练轮数。

示例 3：使用 Scikit-learn 训练 MLP 分类模型

Scikit-learn 的 MLPClassifier 适合演示基础 MLP 在表格数据上的使用。如果要进行更复杂的深度学习训练，通常会使用 PyTorch 等深度学习框架。

下面使用 Scikit-learn 中的 MLPClassifier 训练一个多层感知器分类模型。

from sklearn.datasets import load_wine # 加载葡萄酒数据集from sklearn.model_selection import train_test_split # 数据集划分from sklearn.neural_network import MLPClassifier # 多层感知机分类器from sklearn.preprocessing import StandardScaler # 标准化from sklearn.metrics import classification_report # 分类报告 # 加载葡萄酒数据集（178样本，13特征，3类别）wine = load_wine()X = wine.data # 特征y = wine.target # 标签 # 划分训练集和测试集（测试集30%，分层采样保持类别比例）X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=42, stratify=y) # 标准化：使特征均值为0，方差为1scaler = StandardScaler()X_train_scaled = scaler.fit_transform(X_train) # 拟合并转换训练集X_test_scaled = scaler.transform(X_test) # 仅转换测试集 # 多层感知机分类器：两个隐藏层（16和8个神经元），ReLU激活model = MLPClassifier( hidden_layer_sizes=(16, 8), # 隐藏层结构 activation="relu", # ReLU激活函数 max_iter=2000, # 最大迭代次数 random_state=42 # 随机种子) # 训练模型model.fit(X_train_scaled, y_train) # 预测测试集y_pred = model.predict(X_test_scaled) print("测试集准确率：", model.score(X_test_scaled, y_test))print("分类报告：")print(classification_report(y_test, y_pred, target_names=wine.target_names))

此示例中：

• hidden_layer_sizes=(16, 8) 表示两个隐藏层

• 第一个隐藏层有 16 个神经元

• 第二个隐藏层有 8 个神经元

• activation="relu" 表示隐藏层使用 ReLU 激活函数

• StandardScaler 用于特征标准化

• MLPClassifier 用于分类任务

在实际使用中，MLP 对特征尺度较敏感，通常需要先进行标准化。同时，隐藏层规模、学习率、最大迭代次数和正则化参数都会影响训练效果。

📘 小结

单层感知器是基础线性神经网络模型，适合理解权重、偏置和线性决策边界，但只能处理线性可分问题。多层感知器通过隐藏层和非线性激活函数提升表达能力，能够学习复杂非线性关系，是理解前向传播、反向传播和深度神经网络训练机制的重要基础。

“点赞有美意，赞赏是鼓励”

查看全文