动手学深度学习(八) 优化算法进阶(下)
11.9 AdaDelta除了RMSProp算法以外,另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进 [1]。有意思的是,AdaDelta算法没有学习率这一超参数。AlgorithmAdaDelta算法也像RMSProp算法一样,使用了小批量...
动手学深度学习(八) 优化算法进阶(中)
11.7 AdaGrad在之前介绍过的优化算法中,目标函数自变量的每一个元素在相同时间步都使用同一个学习率来自我迭代。举个例子,假设目标函数为,自变量为一个二维向量,该向量中每一个元素在迭代时都使用相同的学习率。例如,在学习率为的梯度下降中,元素和都使用相同的学习率来自我迭代:在“动量法”一节里我们...
动手学深度学习(八) 优化算法进阶(上)
11.6 Momentum在 Section 11.4 中,我们提到,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
产品推荐
社区圈子