前向传播是输入数据经加权求和、加偏置、激活函数逐层变换得到输出的过程,不更新参数;反向传播利用链式法则从损失函数梯度出发,逐层计算权重与偏置的梯度并更新。
前向传播是神经网络做预测的过程:输入数据从输入层开始,逐层经过加权求和、加偏置、激活函数变换,最终得到输出。比如一个两层网络(含1个隐藏层),计算过程是:
常用激活函数如ReLU(max(0, x))或Sigmoid(1 / (1 + exp(-x))),它们让网络能拟合非线性关系。注意:前向传播不更新参数,只产生预测值和中间结果——这些中间结果在反向传播时会被复用。
反向传播的本质是链式法则的工程实现:从损失函数对输出的梯度出发,逐层往回计算损失对每个权重和偏置的偏导数。核心步骤是:
例如,用均方误差(MSE)和Sigmoid激活时,输出层误差项 = (y_pred − y_true) × y_pred × (1 − y_pred);ReLU的导数在x>0时为1,在x≤0时为0,实际编码中常写成 (x > 0).astype(float)。
理解原理最直接的方式是手写一个单隐藏层网络的关键片段:
# 前向 z1 = X @ W1 + b1 # 隐藏层加权和 a1 = np.maximum(0, z1) # ReLU z2= a1 @ W2 + b2 # 输出层加权和 y_pred = 1 / (1 + np.exp(-z2)) # Sigmoid输出
反向(假设MSE损失)
d_loss_dz2 = (y_pred - y_true) y_pred (1 - y_pred) # 输出层误差项 d_loss_dW2 = a1.T @ d_loss_dz2 d_loss_db2 = np.sum(d_loss_dz2, axis=0)
d_loss_da1 = d_loss_dz2 @ W2.T d_loss_dz1 = d_loss_da1 * (z1 > 0) # ReLU导数 d_loss_dW1 = X.T @ d_loss_dz1 d_loss_db1 = np.sum(d_loss_dz1, axis=0)
更新权重(SGD)
W1 -= lr d_loss_dW1 b1 -= lr d_loss_db1 W2 -= lr d_loss_dW2 b2 -= lr d_loss_db2
初学反向传播常因细节出错导致梯度为0或爆炸。注意: