梯度消失爆炸现象及解

梯度消失和梯度爆炸

梯度消失和梯度爆炸是深度学习模型训练过程中常见的挑战，尤其是在训练深层神经网络时。为了更好地理解它们，我们首先需要回顾一下神经网络的训练过程，特别是**反向传播（Backpropagation）**算法。

神经网络训练基础回顾

在神经网络中，我们通过最小化一个**损失函数（Loss Function）来训练模型。损失函数衡量了模型预测值与真实值之间的差异。为了最小化损失函数，我们通常使用梯度下降（Gradient Descent）**或其变种算法。

梯度下降的核心思想是：沿着损失函数对模型参数（权重 $W$ 和偏置 $b$ ）的负梯度方向更新参数，从而使损失函数逐步减小。

参数更新公式通常表示为：

\theta_{new} = \theta_{old} - \alpha \nabla L(\theta_{old})

其中：

$\theta$ 代表模型参数（可以是权重 $W$ 或偏置 $b$ ）。
$\alpha$ 是学习率（Learning Rate），控制每次参数更新的步长。
$\nabla L(\theta)$ 是损失函数 $L$ 对参数 $\theta$ 的梯度。

在反向传播过程中，梯度是从输出层向输入层逐层计算的。每一层的梯度都依赖于其后续层的梯度以及该层的激活函数的导数。

梯度消失（Vanishing Gradients）

定义： 梯度消失是指在深层神经网络中，当通过反向传播计算梯度时，梯度值在从输出层向输入层传播的过程中变得越来越小，甚至趋近于零。这导致模型参数的更新变得非常缓慢，尤其是对于靠近输入层的网络层，它们的权重几乎得不到更新，从而使得模型无法有效地学习到数据中的特征。

原因：

激活函数的选择： 传统的激活函数，如 Sigmoid 函数和 Tanh 函数，它们的导数在某些区域的值非常小。

Sigmoid 函数： $\sigma(x) = \frac{1}{1 + e^{-x}}$
其导数： $\sigma'(x) = \sigma(x)(1 - \sigma(x))$
Sigmoid 函数的导数最大值为 0.25（当 $x=0$ 时）。当 $|x|$ 较大时，导数会趋近于 0。
Tanh 函数： $\text{tanh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
其导数： $\text{tanh}'(x) = 1 - \text{tanh}^2(x)$
Tanh 函数的导数最大值为 1（当 $x=0$ 时）。当 $|x|$ 较大时，导数会趋近于 0。
当多层的激活函数导数相乘时（链式法则），如果这些导数都小于 1，那么乘积会指数级地减小，导致梯度消失。

网络层数过深： 在深层网络中，梯度需要通过更多的层进行反向传播。每一层都会乘以一个小于 1 的导数（如果使用 Sigmoid 或 Tanh），导致梯度在传播过程中不断衰减。

影响：

靠近输入层的网络层参数更新缓慢，甚至停滞，导致这些层无法学习到有效的特征。
模型训练收敛速度慢，甚至无法收敛。
模型性能下降，无法达到理想的准确率。

梯度爆炸（Exploding Gradients）

定义： 梯度爆炸是指在深层神经网络中，当通过反向传播计算梯度时，梯度值在从输出层向输入层传播的过程中变得非常大，甚至趋近于无穷大。这导致模型参数的更新非常剧烈，使得模型在训练过程中不稳定，甚至发散。

原因：

权重初始化过大： 如果网络中的初始权重设置得过大，那么在反向传播时，这些大的权重值会与梯度相乘，导致梯度值急剧增大。
激活函数的选择： 某些激活函数（虽然不常见于导致梯度爆炸，但理论上如果其导数非常大也可能加剧问题）或不当的激活函数使用。
网络层数过深： 与梯度消失类似，在深层网络中，如果每一层的权重都大于 1，那么在反向传播时，这些大于 1 的值会相乘，导致梯度指数级地增大。

影响：

模型参数更新过大，导致模型在训练过程中震荡，无法收敛。
损失函数值可能变为 NaN（Not a Number），因为数值溢出。
模型训练不稳定，无法得到有效的训练结果。

对比

特征	梯度消失	梯度爆炸
现象	梯度值趋近于零，参数更新缓慢	梯度值趋近于无穷大，参数更新剧烈
主要原因	激活函数导数小（Sigmoid, Tanh），网络过深	权重初始化过大，网络过深
影响	学习停滞，模型无法学习，收敛慢	训练不稳定，损失发散，数值溢出
常见于	RNN（长序列），使用Sigmoid/Tanh的深层NN	RNN（长序列），深层NN

具体例子

我们将以一个非常简单的两层全连接神经网络为例，并使用Sigmoid 激活函数来演示梯度消失，然后通过调整权重来演示梯度爆炸。

示例场景：一个简单的两层神经网络

假设我们有一个非常简单的神经网络，包含：

一个输入层（1个神经元）
一个隐藏层（1个神经元）
一个输出层（1个神经元）

我们使用**均方误差（Mean Squared Error, MSE）**作为损失函数。

网络结构：
输入 $x \rightarrow$ 隐藏层 $h \rightarrow$ 输出层 $y_{pred}$

计算过程：

隐藏层输入： $z_1 = x \cdot W_1 + b_1$
隐藏层输出（激活）： $h = \sigma(z_1)$
输出层输入： $z_2 = h \cdot W_2 + b_2$
输出层输出（激活）： $y_{pred} = \sigma(z_2)$

损失函数： $L = \frac{1}{2}(y_{pred} - y_{true})^2$

其中：

$W_1, W_2$ 是权重
$b_1, b_2$ 是偏置
$\sigma(x)$ 是 Sigmoid 激活函数，其导数是 $\sigma'(x) = \sigma(x)(1 - \sigma(x))$

梯度消失的例子

我们来计算损失函数 $L$ 对第一个权重 $W_1$ 的梯度 $\frac{\partial L}{\partial W_1}$ 。
根据链式法则：

\frac{\partial L}{\partial W_1} = \frac{\partial L}{\partial y_{pred}} \cdot \frac{\partial y_{pred}}{\partial z_2} \cdot \frac{\partial z_2}{\partial h} \cdot \frac{\partial h}{\partial z_1} \cdot \frac{\partial z_1}{\partial W_1}

我们逐项计算：

$\frac{\partial L}{\partial y_{pred}} = (y_{pred} - y_{true})$
$\frac{\partial y_{pred}}{\partial z_2} = \sigma'(z_2)$
$\frac{\partial z_2}{\partial h} = W_2$
$\frac{\partial h}{\partial z_1} = \sigma'(z_1)$
$\frac{\partial z_1}{\partial W_1} = x$

将它们代入，得到：

\frac{\partial L}{\partial W_1} = (y_{pred} - y_{true}) \cdot \sigma'(z_2) \cdot W_2 \cdot \sigma'(z_1) \cdot x

现在，我们代入具体的数值来观察梯度：

假设：

输入 $x = 1.0$
真实标签 $y_{true} = 0.5$
初始权重和偏置都非常小（这是 Sigmoid 容易导致梯度消失的常见情况）：
$W_1 = 0.1$
$b_1 = 0.0$
$W_2 = 0.1$
$b_2 = 0.0$

前向传播计算：

$z_1 = x \cdot W_1 + b_1 = 1.0 \cdot 0.1 + 0.0 = 0.1$
$h = \sigma(z_1) = \sigma(0.1) \approx 0.525$
$z_2 = h \cdot W_2 + b_2 = 0.525 \cdot 0.1 + 0.0 = 0.0525$
$y_{pred} = \sigma(z_2) = \sigma(0.0525) \approx 0.513$

反向传播计算梯度：
我们需要 Sigmoid 导数的值：

$\sigma'(z_1) = \sigma(0.1)(1 - \sigma(0.1)) \approx 0.525 \cdot (1 - 0.525) \approx 0.525 \cdot 0.475 \approx 0.249$
$\sigma'(z_2) = \sigma(0.0525)(1 - \sigma(0.0525)) \approx 0.513 \cdot (1 - 0.513) \approx 0.513 \cdot 0.487 \approx 0.249$

现在计算 $\frac{\partial L}{\partial W_1}$ ：

\frac{\partial L}{\partial W_1} = (y_{pred} - y_{true}) \cdot \sigma'(z_2) \cdot W_2 \cdot \sigma'(z_1) \cdot x \\ = (0.513 - 0.5) \cdot 0.249 \cdot 0.1 \cdot 0.249 \cdot 1.0 \\ \approx 0.00008047

观察结果：
$\frac{\partial L}{\partial W_1} \approx 0.00008$ ，这是一个非常小的梯度值！
这个例子只有两层，如果网络有几十层甚至上百层，并且每一层的激活函数导数都像 Sigmoid 这样小于 1（最大 0.25），那么这些小的导数会不断相乘，导致梯度呈指数级衰减，最终变得微乎其微，使得靠近输入层的权重 $W_1$ 几乎无法更新。这就是梯度消失。

梯度爆炸的例子

现在，我们稍微修改一下初始权重，来演示梯度爆炸。
假设：

输入 $x = 1.0$
真实标签 $y_{true} = 0.5$
初始权重设置得非常大：
$W_1 = 100.0$
$b_1 = 0.0$
$W_2 = 100.0$
$b_2 = 0.0$

前向传播计算：

$z_1 = x \cdot W_1 + b_1 = 1.0 \cdot 100.0 + 0.0 = 100.0$
$h = \sigma(z_1) = \sigma(100.0) \approx 1.0$ (Sigmoid 在大值处趋近于 1)
$z_2 = h \cdot W_2 + b_2 = 1.0 \cdot 100.0 + 0.0 = 100.0$
$y_{pred} = \sigma(z_2) = \sigma(100.0) \approx 1.0$

反向传播计算梯度：
我们需要 Sigmoid 导数的值：

$\sigma'(z_1) = \sigma(100.0)(1 - \sigma(100.0)) \approx 1.0 \cdot (1 - 1.0) \approx 0.0$
$\sigma'(z_2) = \sigma(100.0)(1 - \sigma(100.0)) \approx 1.0 \cdot (1 - 1.0) \approx 0.0$

等等！这里出现了一个问题！ 在这个特定的例子中，由于 Sigmoid 函数的特性，当输入 $z_1$ 和 $z_2$ 变得非常大时，其导数会趋近于 0。这反而会导致梯度消失，而不是梯度爆炸。

这说明了什么？ Sigmoid 激活函数本身就容易导致梯度消失，即使权重很大，如果输入落在了 Sigmoid 的饱和区（导数接近0的区域），梯度依然会消失。

为了更好地演示梯度爆炸，我们换一个场景：
假设我们没有激活函数（或者使用线性激活函数 $f(x)=x$ ，其导数为 1），并且权重非常大。
网络结构：
输入 $x \rightarrow$ 隐藏层 $h \rightarrow$ 输出层 $y_{pred}$
计算过程：

$h = x \cdot W_1$
$y_{pred} = h \cdot W_2 = x \cdot W_1 \cdot W_2$
损失函数： $L = \frac{1}{2}(y_{pred} - y_{true})^2$

现在计算 $\frac{\partial L}{\partial W_1}$ ：

\frac{\partial L}{\partial W_1} = \frac{\partial L}{\partial y_{pred}} \cdot \frac{\partial y_{pred}}{\partial W_1} = (y_{pred} - y_{true}) \cdot (x \cdot W_2)

代入具体的数值来观察梯度爆炸：
假设：

输入 $x = 1.0$
真实标签 $y_{true} = 0.5$
初始权重设置得非常大：
$W_1 = 100.0$
$W_2 = 100.0$

前向传播计算：

$h = 1.0 \cdot 100.0 = 100.0$
$y_{pred} = 100.0 \cdot 100.0 = 10000.0$

反向传播计算梯度：

\frac{\partial L}{\partial W_1} = (y_{pred} - y_{true}) \cdot (x \cdot W_2) \\ = (10000.0 - 0.5) \cdot (1.0 \cdot 100.0) = 999950.0

观察结果：
$\frac{\partial L}{\partial W_1} = 999950.0$ ，这是一个非常巨大的梯度值！
如果学习率 $\alpha$ 是 0.01，那么 $W_1$ 的更新量将是 $0.01 \cdot 999950.0 = 9999.5$ 。
这意味着 $W_1$ 会从 100 变成 $100 - 9999.5 = -9899.5$ ，参数发生了剧烈的变化，甚至可能导致模型发散。这就是梯度爆炸。

总结：

梯度消失通常发生在激活函数（如 Sigmoid, Tanh）的导数很小，并且网络层数很深时，导致梯度在反向传播过程中不断乘以小于1的数而衰减。
梯度爆炸通常发生在网络权重过大，或者没有合适的激活函数限制梯度范围时，导致梯度在反向传播过程中不断乘以大于1的数而急剧增大。

希望这个具体的例子能让您对梯度消失和梯度爆炸有更直观的理解！

如何克服梯度消失和梯度爆炸

克服梯度消失的策略

梯度消失的核心问题是梯度在反向传播过程中变得过小，导致参数更新停滞。以下是主要的解决方案：

使用 ReLU 及其变种激活函数：

ReLU (Rectified Linear Unit)： $\text{ReLU}(x) = \max(0, x)$
其导数： $\text{ReLU}'(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \le 0 \end{cases}$
当 $x > 0$ 时，ReLU 的导数恒为 1，这意味着梯度可以无衰减地通过这一层，有效缓解了梯度消失问题。
Leaky ReLU： $\text{Leaky ReLU}(x) = \max(\alpha x, x)$ (通常 $\alpha = 0.01$ )
解决了 ReLU 在 $x \le 0$ 时导数为 0 的“死亡 ReLU”问题，允许少量梯度通过。
PReLU (Parametric ReLU)： $\text{PReLU}(x) = \max(\alpha x, x)$ ( $\alpha$ 是可学习参数)
ELU (Exponential Linear Unit)： $\text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha(e^x - 1) & \text{if } x \le 0 \end{cases}$
ELU 在负值区域有非零导数，并且输出均值接近于零，有助于缓解梯度消失。

残差连接（Residual Connections）：

核心思想： 在深度网络中，通过引入“跳跃连接”（Skip Connections），允许输入直接跳过一个或多个层，与这些层的输出相加。
应用： 最著名的例子是 ResNet (Residual Network)。
原理： 假设一个残差块的输出是 $H(x)$ ，传统的学习目标是让网络学习 $H(x)$ 。而残差连接的目标是让网络学习残差 $F(x) = H(x) - x$ 。那么块的输出就是 $F(x) + x$ 。
在反向传播时，梯度可以通过 $x$ 的路径直接传播，而不会经过权重矩阵的多次连乘。这提供了一条“捷径”，使得梯度更容易回传到较浅的层，从而有效缓解了梯度消失。
例如，如果 $L$ 是损失，那么对 $x$ 的梯度 $\frac{\partial L}{\partial x}$ 将包含一个直接的 1 项（来自 $x$ 的路径），即 $\frac{\partial L}{\partial x} = \frac{\partial L}{\partial H(x)} \frac{\partial H(x)}{\partial x} = \frac{\partial L}{\partial H(x)} (\frac{\partial F(x)}{\partial x} + 1)$ 。这个 $+1$ 项非常关键。

批量归一化（Batch Normalization, BN）：

核心思想： 在神经网络的每一层输入激活函数之前，对批次数据进行归一化处理，使其均值为 0，方差为 1。
公式：

\mu_B = \frac{1}{m}\sum_{i=1}^m x_i \\ \sigma_B^2 = \frac{1}{m}\sum_{i=1}^m (x_i - \mu_B)^2 \\ \hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} \\ y_i = \gamma \hat{x}_i + \beta

其中 $\gamma$ 和 $\beta$ 是可学习的缩放和平移参数。

原理：
稳定输入分布： 解决了“内部协变量偏移”（Internal Covariate Shift）问题，使得每一层输入的分布更加稳定，避免了输入值落入激活函数的饱和区（导数接近0的区域）。
允许更大学习率： 稳定的梯度使得可以使用更大的学习率，加速训练。
正则化效果： 引入了微小的噪声，具有一定的正则化效果。
效果： 显著缓解了梯度消失，并加速了训练收敛。

使用 LSTM/GRU 等门控循环单元（针对 RNN）：

核心思想： 传统的 RNN 在处理长序列时极易出现梯度消失（和梯度爆炸）。LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit) 通过引入“门”机制来控制信息的流动，从而有效地解决了这个问题。
LSTM： 包含输入门、遗忘门和输出门，以及一个细胞状态（Cell State）。细胞状态可以长期存储信息，并通过门控机制选择性地添加或遗忘信息，使得梯度可以更长时间地保持。
GRU： 是 LSTM 的简化版本，包含更新门和重置门。
原理： 门控机制允许梯度在时间步上传播时，能够选择性地“记住”或“遗忘”信息，避免了梯度在长序列中指数级衰减。

克服梯度爆炸的策略

梯度爆炸的核心问题是梯度变得过大，导致参数更新剧烈，模型不稳定。以下是主要的解决方案：

梯度裁剪（Gradient Clipping）：

核心思想： 在反向传播计算出梯度后，如果梯度的范数（通常是 L2 范数）超过预设的阈值，就对梯度进行缩放，使其范数等于该阈值。
公式： 假设计算出的梯度向量为 $\mathbf{g}$ ，阈值为 $C$ 。
如果 $||\mathbf{g}||_2 > C$ ，则将梯度裁剪为 $\mathbf{g}_{clipped} = \frac{C}{||\mathbf{g}||_2} \mathbf{g}$ 。
否则， $\mathbf{g}_{clipped} = \mathbf{g}$ 。
应用： 尤其在 RNN 训练中非常常用，因为 RNN 容易出现梯度爆炸。
效果： 有效地限制了梯度的最大值，防止参数更新过大，从而稳定训练过程。

权重初始化（Weight Initialization）：

核心思想： 合理地初始化网络权重，使得在训练开始时，每一层的激活值和梯度都保持在一个合理的范围内，避免过大或过小。
常见策略：
Xavier/Glorot 初始化： 适用于 Sigmoid 和 Tanh 激活函数。它根据输入和输出神经元的数量来缩放初始权重，使得前向传播和反向传播的方差保持一致。
权重从均匀分布 $U(-\sqrt{\frac{6}{n_{in} + n_{out}}}, \sqrt{\frac{6}{n_{in} + n_{out}}})$ 或正态分布中采样。
He 初始化： 适用于 ReLU 及其变种激活函数。它考虑了 ReLU 的非线性特性，通常将权重初始化为均值为 0，方差为 $\frac{2}{n_{in}}$ 的正态分布。
效果： 良好的初始化可以为训练提供一个稳定的起点，减少梯度消失和爆炸的风险。

批量归一化（Batch Normalization）：

再次提及： 批量归一化不仅能缓解梯度消失，也能在一定程度上缓解梯度爆炸。通过将每一层的输入归一化，它限制了激活值的范围，从而间接限制了梯度的范围，使得训练更加稳定。

减小学习率（Learning Rate）：

核心思想： 梯度爆炸意味着参数更新步长过大。直接减小学习率 $\alpha$ 可以降低每次更新的幅度。
注意： 这是一种比较直接但可能不够精细的解决方案。过小的学习率可能导致训练速度过慢。通常与其他方法结合使用。

使用更小的批次大小（Mini-batch Size）：

虽然不是直接解决梯度爆炸的方法，但较小的批次大小会引入更多的噪声，这在某些情况下可以帮助模型跳出局部最优，并可能在一定程度上缓解梯度爆炸的极端情况（因为每次更新的梯度是基于更小的样本集）。

总结

克服梯度消失和梯度爆炸是深度学习模型能够成功训练深层网络的基石。通常，在实际应用中，我们会结合使用多种策略：

激活函数： 优先选择 ReLU 及其变种。
网络结构： 考虑使用残差连接（ResNet）。
归一化： 几乎总是使用批量归一化。
初始化： 根据激活函数选择合适的权重初始化方法。
优化器： 对于 RNN，梯度裁剪是必不可少的。

通过这些技术，我们能够构建和训练更深、更复杂的神经网络，从而在各种任务中取得更好的性能。

#AI

梯度消失爆炸现象及解

https://hb2cpc.top/2025/08/vanishing-exploding-gradients

作者

hb2cpc

发布于

2025年08月14日

许可协议