您的位置: 首页> AI模型

深度拆解：Weight Decay 与参数正则化的博弈论

匿名上传

发布时间:2026-02-18 18:48:01

在模型训练中，如果说损失函数是“前进的拉力”，那么权重衰减（Weight Decay）就是“收敛的压力”。它确保模型在变得“聪明”的同时，依然保持“简洁”。

一、参数 $θ theta$ 与 Bias (偏置) 的本质区别

模型的大脑由成千上万个数字组成，但它们的职责各不相同：

组成部分	物理比喻	职责	为什么重要？
权重 (Weights)	肌肉强度	决定输入特征的影响力。	决定了决策边界的扭曲程度（模型复杂度）。
偏置 (Bias)	入职门槛	决定神经元被激活的起步门槛。	负责整体平移分布，不增加模型复杂度。

正则化后的损失函数公式如下： $L_{n e w} = L_{o r i g i n a l} + \frac{λ}{2} ∥ θ ∥^{2} L_{new} = L_{original} + frac{lambda}{2} |theta|^2$

防止过拟合：模型为了让总 $L_{n e w} L_{new}$ 变小，必须在“预测精度”和“参数规模”之间做权衡。它会被迫放弃那些为了拟合随机噪声而产生的大数值权重。
平方项的威力：由于是平方（ $θ^{2} theta^2$ ），这把锁对“出头鸟”（巨大的参数）极其敏感，而对微小的参数相对宽容。

这并非玄学，而是经验上的平衡艺术：

在微调脚本中，我们通常排除掉 Bias 和 LayerNorm 的权重衰减，原因有三：

在传统的 Adam 中，权重衰减是通过向损失函数添加 L2 惩罚项实现的，其导数（梯度）被记为 $g_{t} + λ θ_{t} g_t + lambda theta_t$ 。

梯度融合：将正则化项带来的梯度直接塞进原始梯度 $g_{t} g_t$ 中。
自适应缩放： $m_{t} = 动量 (g_{t} + λ θ_{t}) m_t = text{动量}(g_t + lambda theta_t)$ $v_{t} = 二阶矩 (g_{t} + λ θ_{t}) v_t = text{二阶矩}(g_t + lambda theta_t)$
最终更新： $θ_{t + 1} = θ_{t} - η \cdot \frac{m_{t}}{\sqrt{v_{t}} + ϵ} theta_{t+1} = theta_t - eta cdot frac{m_t}{sqrt{v_t} + epsilon}$

逻辑干扰：由于 $λ θ_{t} lambda theta_t$ 参与了二阶矩 $v_{t} v_t$ 的计算，它会改变分母的大小。
效果失效：如果某个参数 $θ theta$ 很大但梯度 $g_{t} g_t$ 很小，Adam 的自适应机制会为了“稳定更新”而增大分母，从而无意中缩小了权重衰减的惩罚力度。这导致“减肥计划”在最需要它的时候（参数过大时）反而变得软弱无力。

AdamW 的核心思想是：将“保持体型（权重衰减）”与“寻找方向（梯度更新）”彻底分开。

独立瘦身 (Weight Decay Step)： $θ_{t e m p} = θ_{t} \cdot (1 - η λ) theta_{temp} = theta_t cdot (1 - eta lambda)$ 注意：这一步不看梯度，不问 Adam，只由学习率 $η eta$ 和衰减系数 $λ lambda$ 决定。
正常更新 (Adam Step)： $θ_{t + 1} = θ_{t e m p} - η \cdot \frac{m_{t} (g_{t})}{\sqrt{v_{t} (g_{t})} + ϵ} theta_{t+1} = theta_{temp} - eta cdot frac{m_t(g_t)}{sqrt{v_t(g_t)} + epsilon}$ 注意：这里的 $m_{t} m_t$ 和 $v_{t} v_t$ 只计算原始梯度 $g_{t} g_t$ ，不再受 $λ lambda$ 污染。

本站提供的所有下载资源均来自互联网，仅提供学习交流使用，版权归原作者所有。如需商业使用，请联系原作者获得授权。如您发现有涉嫌侵权的内容，请联系我们邮箱:alixiixcom@163.com

热门小说大全

立即下载