【算法笔记】深度学习中的优化器Optimizer算法（BGD,SGD,mBGD......）

随机梯度下降（SGD）是最经典和常用的优化算法之一，本文将重点介绍和解释SGD的概念、算法原理以及在深度学习中的应用和优缺点。1. 低计算成本：SGD每次仅使用一个样本或一批样本进行模型参数更新，相比于使用全部样本的批量梯度下降（BGD），计算成本更低。1. 动量法（Momentum）：引入一个动量项，使更新方向在梯度变化较大的维度上具有一定的惯性，从而加速收敛并减少震荡。4. RMSprop：对Adagrad进行改进，通过平均梯度的平方来调整学习率，从而缓解训练过程中的震荡。SGD的原理相对简单。

上一篇：初中毕业出国哪个国家比较好？

下一篇：SEO全教程：手把手教你做SEO