HuggingFace Papers · 训练

对称性兼容原则提出优化器设计新方法

一篇新论文提出对称性兼容原则,为优化器设计提供理论指导。该方法可应用于嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器等模块,通过保持参数空间的对称性来提升训练效率与模型性能。研究为理解神经网络优化机制提供了新视角。

域名
huggingface.co
评分
4 · 重要更新
收录
2026-05-19
对称性兼容原则提出优化器设计新方法

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。