机器学习笔记:L2正则化

L2正则化是一种用来实现结构风险最小化(SRM)的手段,通过向损失函数中添加一项带有特定系数$\lambda$的权重向量的L2范数来实现。

$$Loss = L_0 + \lambda\sum_{i}\omega_{i}^{2}$$

  • $\mathbf{\omega} = [\omega_0, \omega_1, \omega_2, …]$,是权重向量。
  • $L_0$为原始的损失函数。
  • $\lambda$称为正则化率,用于控制正则化的程度。
  • 结构风险最小化:使损失和模型复杂度都尽可能小的损失函数优化算法,对应概念有经验风险最小化(ERM)。
  • 经验风险最小化:仅使损失尽可能小的优化算法,容易造成过拟合(当训练样本容量较小时)。

L2正则化的加入使得权重向量在每一次迭代之后出现梯度损耗现象。

L2正则化较为直观的理解是将模型复杂度也视为可优化的参数,同时优化损失函数和模型复杂度。目的是在降低损失的同时也降低模型复杂度。