About 938,000 results
Open links in new tab
  1. PyTorch模型训练优化器Adam和AdamW - 知乎

    在 PyTorch 里, Adam 和 AdamW 的调用语法几乎一模一样,这是因为 PyTorch 的优化器接口是统一设计的,使用方式都继承自 torch.optim.Optimizer 的通用结构。

  2. 深入剖析 Adam 优化器:原理、优势与应用 - 知乎

    Adam优化器凭借其独特的设计和出色的性能,已成为深度学习领域不可或缺的工具。 深入理解其原理和性质,能帮助我们更好地运用它提升模型训练效果,推动深度学习技术不断发展。

  3. 一文读懂Adam优化算法 - 知乎

    May 9, 2024 · Adam算法是在2014年提出的一种基于一阶梯度的优化算法,它结合了 动量 (Momentum)和 RMSprop (Root Mean Square Propagation)的思想, 自适应地调整每个参数 …

  4. Adam和AdamW - 知乎

    AdamW目前是大语言模型训练的默认优化器,而大部分资料对Adam跟AdamW区别的介绍都不是很明确,在此梳理一下Adam与AdamW的计算流程,明确一下二者的区别。

  5. Adam 优化器背后的数学原理 - 知乎

    Adam,这个名字在许多获奖的 Kaggle 竞赛中广为人知。 参与者尝试使用几种优化器(如 SGD、Adagrad、Adam 或 AdamW)进行实验是常见的做法,但真正理解它们的工作原理是另一回事。

  6. 简单认识Adam优化器 - 知乎

    虽然Adam算法目前成为主流的优化算法,不过在很多领域里(如计算机视觉的对象识别、NLP中的机器翻译)的最佳成果仍然是使用带动量(Momentum)的SGD来获取到的。

  7. 如何理解Adam算法 (Adaptive Moment Estimation)? - 知乎

    正因为Adam是深度学习时代最有影响力的工作之一,该如何(定量地)理解它就是一个非常重要、非常困难、又非常迷人的挑战。

  8. 通俗理解 Adam 优化器 - 知乎

    Adam吸收了Adagrad(自适应学习率的梯度下降算法)和 动量梯度下降算法 的优点, 既能适应稀疏梯度(即自然语言和计算机视觉问题),又能缓解梯度震荡的问题

  9. 大模型面试题--介绍一下Adam - 知乎

    Adam (Adaptive Moment Estimation)是一种广泛使用的 优化算法,特别适用于训练深度学习模型。 它 结合了动量优化和 RMSProp (Root Mean Square Propagation)的优点,能够高效处理稀疏梯度和 …

  10. 动手学深度学习11.10. Adam算法-笔记&练习(PyTorch) - 知乎

    Apr 27, 2025 · Adam算法将许多优化算法的功能结合到了相当强大的更新规则中。 Adam算法在RMSProp算法基础上创建的,还在小批量的随机梯度上使用EWMA。 在估计动量和二次矩 …