机器学习笔记:L2正则化
L2正则化是一种用来实现结构风险最小化(SRM)的手段,通过向损失函数中添加一项带有特定系数$\lambda$的权重向量的L2范数来实现。
$$Loss = L_0 + \lambda\sum_{i}\omega_{i}^{2}$$
- $\mathbf{\omega} = [\omega_0, \omega_1, \omega_2, …]$,是权重向量。
- $L_0$为原始的损失函数。
- $\lambda$称为正则化率,用于控制正则化的程度。
- 结构风险最小化:使损失和模型复杂度都尽可能小的损失函数优化算法,对应概念有经验风险最小化(ERM)。
- 经验风险最小化:仅使损失尽可能小的优化算法,容易造成过拟合(当训练样本容量较小时)。
L2正则化的加入使得权重向量在每一次迭代之后出现梯度损耗现象。
L2正则化较为直观的理解是将模型复杂度也视为可优化的参数,同时优化损失函数和模型复杂度。目的是在降低损失的同时也降低模型复杂度。