次梯度法是求解凸函数最优化问题的一种迭代法。次梯度法能够用于不可微的目标函数。当目标函数可微时,对于无约束问题次梯度法与梯度下降法具有同样的搜索方向。
注意力机制是人工神经网络中一种模仿注意的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。可以通过梯度下降法对注意力机制进行训练。
梯度消失问题是一种机器学习中的难题,出现在以梯度下降法和反向传播算法训练人工神经网络的时候。在每次训练的迭代中,神经网路权重的更新值与误差函数的偏导数成比例,然而在某些情况下,梯度值会几乎消失,使得权重无法得到有效更新,甚至神经网络可能完全无法继续训练。举个例子来说明问题起因,一个传统的激励函数如双曲正切函数,其梯度值在 范围内,反向传播以链式法则来计算梯度。
反向传播是对多层人工神经网络进行梯度下降法的算法,也就是用链式法则以网络每层的权重为变数计算损失函数的梯度,以更新权重来最小化损失函数。