深度学习实践篇[17]:模型压缩技术、模型蒸馏算法:Patient-KD、DistilBERT、DynaBERT、TinyBERT
深度学习实践篇[17]:模型压缩技术、模型蒸馏算法:Patient-KD、DistilBERT、DynaBERT、TinyBERT 1.模型压缩概述 1.2模型压缩原有 理论上来说,深度神经网络模型越深,非线性程度也就越大,相应的对现实问题的表达能力越强,但相应的代价是,训练成本和模型大小的增加。同...
【pytorch深度学习实践】笔记—03-1.梯度下降算法
梯度的引入与思考【问题1】为什么要引入梯度下降,梯度下降是用来解决什么问题的?【思考】回忆一下在笔记02中我们是如何找到的w?对,是穷举!我们是在[0.0,4.0]区间,每隔0.1取一个值,穷举了所有w的可能取值,根据w-loss图像得出结论:loss最小时,...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。