17370845950

新闻动态

< 返回列表当前位置：首页 > 新闻动态 > 技术教程

Python神经网络教程_前向传播与反向传播

前向传播是输入数据经加权求和、加偏置、激活函数逐层变换得到输出的过程，不更新参数；反向传播利用链式法则从损失函数梯度出发，逐层计算权重与偏置的梯度并更新。

前向传播：数据怎么“流过”神经网络

前向传播是神经网络做预测的过程：输入数据从输入层开始，逐层经过加权求和、加偏置、激活函数变换，最终得到输出。比如一个两层网络（含1个隐藏层），计算过程是：

隐藏层输出 = 激活函数(输入 × 权重₁ + 偏置₁)
输出层输出 = 激活函数(隐藏层输出 × 权重₂ + 偏置₂)

常用激活函数如ReLU（max(0, x)）或Sigmoid（1 / (1 + exp(-x))），它们让网络能拟合非线性关系。注意：前向传播不更新参数，只产生预测值和中间结果——这些中间结果在反向传播时会被复用。

反向传播：误差怎么“流回来”更新参数

反向传播的本质是链式法则的工程实现：从损失函数对输出的梯度出发，逐层往回计算损失对每个权重和偏置的偏导数。核心步骤是：

计算输出层误差项（如：预测值与真实标签的差 × 输出层激活函数导数）
用该误差项乘以前一层输出，得到对当前层权重的梯度
用误差项乘以1，得到对当前层偏置的梯度
将误差项传递到前一层（乘以上一层权重转置，再乘该层激活函数导数）

例如，用均方误差（MSE）和Sigmoid激活时，输出层误差项 = (y_pred − y_true) × y_pred × (1 − y_pred)；ReLU的导数在x>0时为1，在x≤0时为0，实际编码中常写成 (x > 0).astype(float)。

手动实现一小段前向+反向代码（无框架）

理解原理最直接的方式是手写一个单隐藏层网络的关键片段：

# 前向
z1 = X @ W1 + b1    # 隐藏层加权和
a1 = np.maximum(0, z1)  # ReLU
z2 = a1 @ W2 + b2   # 输出层加权和
y_pred = 1 / (1 + np.exp(-z2))  # Sigmoid输出
反向（假设MSE损失）
d_loss_dz2 = (y_pred - y_true)  y_pred  (1 - y_pred)  # 输出层误差项
d_loss_dW2 = a1.T @ d_loss_dz2
d_loss_db2 = np.sum(d_loss_dz2, axis=0)
d_loss_da1 = d_loss_dz2 @ W2.T
d_loss_dz1 = d_loss_da1 * (z1 > 0)  # ReLU导数
d_loss_dW1 = X.T @ d_loss_dz1
d_loss_db1 = np.sum(d_loss_dz1, axis=0)
更新权重（SGD）
W1 -= lr  d_loss_dW1
b1 -= lr  d_loss_db1
W2 -= lr  d_loss_dW2
b2 -= lr  d_loss_db2

为什么容易卡在反向传播？几个关键提醒

初学反向传播常因细节出错导致梯度为0或爆炸。注意：

矩阵维度必须对齐：W1.shape = (input_dim, hidden_dim)，X.shape = (batch_size, input_dim)，所以 X @ W1 合理；反向时 d_loss_dW1 = X.T @ d_loss_dz1，形状才匹配
激活函数导数不能漏：Sigmoid导数不是“1−y”，而是“y×(1−y)”；ReLU导数不是常数1，需按输入值分段
批量训练时，对偏置的梯度要沿 batch 维度求和（np.sum(..., axis=0)），否则形状错
初始化权重不能全零：会导致所有神经元学习相同特征，梯度对称失效；推荐用小随机数，如 np.random.randn(...) * 0.01

17370845950

前向传播：数据怎么“流过”神经网络

反向传播：误差怎么“流回来”更新参数

手动实现一小段前向+反向代码（无框架）

为什么容易卡在反向传播？几个关键提醒

关于我们

服务项目

广告推广

案例欣赏