arXiv · 训练

研究证明 AdaGrad 在重尾噪声下收敛

该研究从理论层面验证了自适应梯度方法 AdaGrad 在重尾梯度噪声下的收敛性。现代机器学习优化中,梯度噪声常呈现重尾分布,给传统一阶方法带来挑战。该研究分析了 AdaGrad 在此类噪声下的行为,为理解自适应优化器在非理想条件下的表现提供了理论支撑,对训练大模型时的优化器选择有参考价值。

域名
arxiv.org
评分
4 · 重要更新
发布
2026-05-18
研究证明 AdaGrad 在重尾噪声下收敛

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。

原文摘要

Many tasks in modern machine learning are observed to involve heavy-tailed gradient noise during the optimization process. To manage this realistic and challenging setting, new mechanisms, such as gradient clipping and gradient normalization, have been introduced to ensure the convergence of first-…