为了账号安全,请及时绑定邮箱和手机立即绑定

L1正则化和L2正则化的联系和区别

标签:
机器学习

机器学习中,一般损失函数后边会添加一个额外项,一般称作L1正则化L2正则化或者L1范数L2范数。L1、L2正则化可以看做是损失函数的惩罚项。对于线性回归模型,使用L1正则化得模型称作Lasso回归,使用L2正则化的模型称作Ridge回归(岭回归)。

L1正则化是指权值向量中各个元素的绝对值之和,例如|w1| + |w2|。
L2正则化是指权值向量中各个元素的平方和然后再求平方根。

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,用于特征选择。
假设有如下带有L1正则化的目标函数等高线图:


webp

L1正则化的目标函数求解


图中等值线是J0函数等值线,黑色菱形是L函数的图形。我们现在的目标就是不仅要原函数更接近紫色的小圈,同时要使得菱形值越小越好。并且加入L1范数的解,一定是某条等高线和菱形的切点。这个切点位于顶点时就是最优解。这个顶点的坐标为(0,w)。(二维情况有四个顶点,多维情况下有更多)

---------------------------------L1,L2分割线--------------------------------

L2正则化可以产生参数值较小的模型,能适应不同的数据集,一定程度上防止过拟合,抗扰动能力强。


webp

L2正则化的目标函数求解


L2正则的分析与L1类似,只不过L函数由菱形变成了圆形,仍旧求原曲线和圆形的切点作为最优解。此时切点不容易在坐标轴上,而是位于靠近坐标轴的部分,因此我们可以说L2范数能让解比较小(靠近0),但是比较平滑(不等于0)。

最后,我们所说的希望模型结构风险(SRM)最小化,是要求拟合误差足够小(经验风险ERM最小化),同时模型不要太复杂(正则化项极小化),这样得到的模型具有较强的泛化能力,即对未知的数据有更好的预测能力。



作者:环境与方法
链接:https://www.jianshu.com/p/0733d82f1082


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消