动手学深度学习(八) 优化算法进阶(下)

动手学深度学习(八) 优化算法进阶(下)

11.9 AdaDelta除了RMSProp算法以外,另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进 [1]。有意思的是,AdaDelta算法没有学习率这一超参数。AlgorithmAdaDelta算法也像RMSProp算法一样,使用了小批量...

动手学深度学习(八) 优化算法进阶(中)

动手学深度学习(八) 优化算法进阶(中)

11.7 AdaGrad在之前介绍过的优化算法中,目标函数自变量的每一个元素在相同时间步都使用同一个学习率来自我迭代。举个例子,假设目标函数为,自变量为一个二维向量,该向量中每一个元素在迭代时都使用相同的学习率。例如,在学习率为的梯度下降中,元素和都使用相同的学习率来自我迭代:在“动量法”一节里我们...

高校精品课-复旦大学-机器学习与深度学习

1 课时 |
105 人已学 |
免费

深度学习框架TensorFlow入门

24 课时 |
17302 人已学 |
免费

深度学习与自动驾驶

12 课时 |
3062 人已学 |
免费
开发者课程背景图
动手学深度学习(八) 优化算法进阶(上)

动手学深度学习(八) 优化算法进阶(上)

11.6 Momentum在 Section 11.4 中,我们提到,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

智能引擎技术
智能引擎技术
AI Online Serving,阿里巴巴集团搜推广算法与工程技术的大本营,大数据深度学习时代的创新主场。
4027+人已加入
加入
相关电子书
更多
深度学习框架实战-Tensorflow
TensorRT Introduction
端上智能-深度学习模型压缩与加速
立即下载 立即下载 立即下载