优化器的
作用:
用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。
在深度学习中,几乎所有流行的
优化器都基于梯度下降。这意味着他们反复估计给定的损失函数L的斜率,并将参数向相反的方向移动(因此向下爬升到一个假设的全局最小值)。
优化器的选择方法:https://www.cnblogs.com/guoyaohua/p/8542554.html
SGD
我们将使用以下符号:用w表示参数,用g表示模型的梯度,α为每个
优化器的全局学习率,t为时间步长。
Stoch