从零开始机器学习-优化器

发表于 2023-10-17 更新于 2025-04-27 分类于从零开始机器学习阅读次数：本文字数： 2.5k 阅读时长 ≈ 9 分钟

SGD(Stochastic Gradient Descent): 随机梯度下降

随机梯度下降（Stochastic Gradient Descent，简称SGD）是一种常用于训练机器学习模型的优化算法，特别在深度学习中广泛应用。SGD的主要思想是通过迭代更新模型参数以最小化损失函数，以使模型能够更好地拟合训练数据。

以下是SGD算法的关键步骤和工作原理：

初始化参数：首先，为模型的参数（通常是权重和偏置）分配初始值，通常是随机初始化。
迭代更新参数：SGD使用以下迭代步骤来更新模型参数：
1. 随机抽取训练样本：每次迭代中，从训练数据中随机选择一个训练样本。
2. 计算梯度：对于选定的训练样本，计算损失函数对于每个参数的梯度。梯度表示损失函数的变化率，指示了参数应该如何调整以减小损失。
3. 更新参数：使用计算得到的梯度和学习率，通过以下公式来更新模型的参数：
\(\theta_{t+1} = \theta_t - \eta \cdot \nabla L(\theta_t; x, y)\)

其中：
- \(\theta_{t+1}\) 是更新后的参数值。
- \(\theta_t\) 是当前参数值。
- \(\eta\) 是学习率（learning rate）：它控制了参数更新的步长。
- \(\nabla L(\theta_t; x, y)\) 是损失函数对参数的梯度，表示损失函数在当前参数下的变化率。
- \(x\) 是训练样本的特征。
- \(y\) 是训练样本的标签。
重复迭代：SGD会重复执行上述迭代步骤，每次选择一个不同的训练样本，然后更新模型参数，直到达到预定的迭代次数或损失收敛到某个阈值。

SGD的优点包括简单、易于实现和在大规模数据集上有效。由于它每次只使用一个训练样本来计算梯度，因此在处理大型数据集时可以节省内存。此外，SGD具有一种随机性，可以帮助跳出局部极小值，有助于逃脱损失函数的局部最小值。

然而，SGD也有一些缺点，例如不稳定的更新路径和慢收敛。因此，为了解决这些问题，研究人员提出了许多SGD的变种，包括小批量梯度下降（Mini-batch Gradient Descent）和带动量的SGD（Momentum SGD），这些变种在深度学习中更常用。

Adam(Adaptive Moment Estimation): 自适应学习率优化算法

Adam（Adaptive Moment Estimation）是一种自适应学习率优化算法，用于训练神经网络和其他机器学习模型。Adam结合了梯度下降的思想和自适应学习率的特性，旨在解决传统梯度下降算法中学习率固定和难以选择的问题。它在深度学习中广泛使用，通常能够加速模型的训练和提高性能。

以下是Adam算法的主要思想和关键步骤：

初始化参数：首先，为模型的参数（权重和偏置）分配初始值，通常是随机初始化。
初始化累积梯度和累积平方梯度：Adam维护两个累积变量，一个是梯度的指数移动平均（通常称为动量或一阶矩），另一个是梯度的平方的指数移动平均（通常称为RMSprop或二阶矩）。这两个变量分别初始化为零。
计算梯度：使用训练数据的损失函数计算当前梯度，表示损失函数对于每个参数的变化率。
更新动量和RMSprop累积：在每次迭代中，Adam使用指数移动平均方法来更新梯度的动量和RMSprop累积，以捕捉梯度变化的趋势。这有助于适应不同参数的尺度和梯度的变化情况。
修正偏差：由于动量和RMSprop的累积在初始时会出现偏差，Adam引入了修正偏差项，以修正这些偏差。
计算学习率：Adam引入了自适应学习率，即每个参数具有不同的学习率。学习率的计算基于动量和RMSprop的累积，并通过修正偏差项来校正。
更新参数：使用计算得到的学习率，根据以下公式来更新模型的参数：

\(\theta_{t+1} = \theta_t - \eta \cdot \frac{m_t}{\sqrt{v_t} + \epsilon}\)

其中：
- \(\theta_{t+1}\) 是更新后的参数值。
- \(\theta_t\) 是当前参数值。
- \(\eta\) 是学习率。
- \(m_t\) 是动量的累积。
- \(v_t\) 是RMSprop的累积。
- \(\epsilon\) 是一个小的常数，通常用来防止分母为零。

Adam的优点包括自适应学习率、速度较快的收敛和较好的性能。然而，需要谨慎选择学习率和其他超参数，以免过拟合。Adam是深度学习中常用的优化算法之一，通常能够在模型训练中表现出色。

Rmsprop(Root Mean Square Propagation): 均方根传播

RMSprop（Root Mean Square Propagation）是一种优化算法，用于训练神经网络和其他机器学习模型。它是一种自适应学习率算法，旨在解决传统梯度下降算法中学习率固定的问题。RMSprop的主要目标是通过自动调整每个参数的学习率，来加速模型的收敛并提高性能。

以下是RMSprop算法的工作原理和关键步骤：

初始化参数：首先，为模型的参数（权重）分配初始值，通常是随机初始化。
计算梯度：使用训练数据的损失函数计算梯度，表示损失函数对于每个参数的变化率。
初始化累积平方梯度：RMSprop维护一个累积平方梯度的移动平均值，通常初始化为零。
更新累积平方梯度：在每次迭代中，计算当前梯度的平方，并使用指数移动平均方法将其添加到累积平方梯度中。这有助于捕捉梯度的变化趋势。
计算学习率：RMSprop引入了一个自适应的学习率，该学习率是根据累积平方梯度来计算的。它用于调整每个参数的学习率，以便在梯度变化大时降低学习率，从而减小参数的更新幅度，而在梯度变化小时增加学习率，从而更快地收敛。
更新参数：使用计算得到的学习率，根据以下公式来更新模型的参数：

\(\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2] + \epsilon}} \cdot g\)

其中：
- \(\theta_{t+1}\) 是更新后的参数值。
- \(\theta_t\) 是当前参数值。
- \(\eta\) 是学习率。
- \(E[g^2]\) 是平方梯度的指数移动平均。
- \(\epsilon\) 是一个小的常数，通常用来防止分母为零。

RMSprop的关键优点是它可以自动调整学习率，因此对于不同参数和不同时间步的梯度变化具有良好的适应性。这有助于加速收敛，尤其是在具有稀疏梯度或不同尺度的参数时。然而，需要注意的是，RMSprop不具有二阶信息（Hessian矩阵），因此在某些情况下，可能会受到局部极小值的影响。

RMSprop是深度学习中常用的优化算法之一，通常与其他自适应学习率算法如Adam一起使用，以提高模型的性能和收敛速度。

对比

SGD（随机梯度下降），Adam，和RMSprop都是用于优化机器学习模型的梯度下降算法的变种。它们各自有不同的优点和缺点，适用于不同的场景。

SGD（随机梯度下降）:

优点：
- 简单易实现，计算速度快。
- 适用于大规模数据集，因为每次只使用一个样本。
- 具有随机性，可以帮助跳出局部极小值。
缺点：
- 收敛速度相对较慢，特别是在损失函数具有强烈非凸性的情况下。
- 参数更新的路径较不稳定，可能导致震荡。
适用场景：
- 大规模数据集。
- 当计算资源有限或需要快速原型设计时。
- 在随机性有助于逃脱局部极小值的问题上。
RMSprop（Root Mean Square Propagation）:

优点：
- 自适应学习率，能够加速收敛。
- 对于非平稳性目标函数（损失函数变化较快）更稳定。
- 相对容易调整参数。
缺点：
- 仍可能需要手动调整学习率和其他超参数。
- 有时可能受到局部极小值的困扰。
适用场景：
- 大多数深度学习任务。
- 当需要加速收敛并提高性能时。
Adam（Adaptive Moment Estimation）:

优点：
- 自适应学习率，结合了动量和RMSprop。
- 通常能够快速收敛，并在实践中表现良好。
- 不需要手动调整学习率。
缺点：
- 可能对超参数敏感，需要仔细调整。
- 有时可能陷入局部极小值。
适用场景：
- 深度学习任务中常用。
- 当需要自适应学习率和良好的性能时。

总的来说，选择合适的优化算法取决于您的具体问题和数据。一般而言，Adam是一个通用性较强的优化算法，适用于大多数深度学习任务。RMSprop也是一个不错的选择，特别适用于非平稳性目标函数。SGD通常在大规模数据集或计算资源受限的情况下使用。在实际应用中，往往需要通过交叉验证和实验来确定哪种算法最适合您的问题。此外，超参数调整也是非常重要的，包括学习率、动量、和正则化等。