为了账号安全,请及时绑定邮箱和手机立即绑定
慕课专栏

目录

索引目录

给机器学习初学者的极简入门课

原价 ¥ 68.00

立即订阅
03 总纲:机器学习建模的 3 把金钥匙
更新时间:2019-10-09 17:49:09
散步促进我的思想。我的身体必须不断运动,脑筋才会开动起来。

—— 卢梭

〇、本节要点

机器学习的黑盒子:

  • 黑盒子的输入是数据,输出是学会的知识

打开这个黑盒子:

  • 想打开这个盒子,就要牢牢掌握三把金钥匙
  • 模型:用于作出决策,y=f(w;x)y=f(\mathbf w; \mathbf x)
  • 策略:用于评价决策,L(w)=loss(y,y^)L(\mathbf w)=loss(y, \hat{y})
  • 算法:用于修正模型,w=argminw(L(w))\mathbf w=\underset{\mathbf w}{argmin}(L(w))

​ 这一节是本专栏的总纲。就如同《葵花宝典》的 "欲练神功" 篇,《九阴真经》的梵文音译篇。因此,这一节我要求读者精读,并且反复精读,甚至在学完本专栏后,还要反复精读。

一、机器学习的黑盒子

机器学习,是让机器模拟人进行学习的过程。 这很像学生时代,学生学习知识的过程。假想王小宝是个小学生,他的目标是要学习四则运算。最终,通过一个月的上课、做习题、以及考试,本来不具备四则运算能力的王小宝,变成了可以灵活玩转四则运算的孩子。可见,通过学习,人掌握了本不具备的某项能力。如果把人学习知识的过程抽象,并用某个算法进行总结,那么一个执行该算法的机器(通常是一段代码或一个软件)是否也具备了学习的能力呢?机器学习就是要实现这个目标。

人学习的方法有很多,但很可惜,机器学习的方法只能通过不断的做习题。 感性来看,机器不断地做习题,并将结果与习题答案核对。如果做对了,机器就会增强这个正确回答的题目的记忆;如果做错了,机器就会减弱这个错误回答的题目的记忆。最终,机器会记住 4 + 3 = 7 的记忆,而忘掉 4 + 3 = 9 的记忆。这个方法很简单,但对机器来说非常适用。围绕这个感性认知,一个机器学习效果的好坏,很大程度上取决于它做习题的数量。简而言之,做得越多,它学会的题目就越多。感性认知过后,我们用一些专业词汇来描述机器学习的过程。

机器学习的黑盒子,输入的是数据以及标签,输出的是学会的知识。 每一道习题,叫做数据样本。所有题目的集合,就是数据集。每道题附带的标准答案,称之为数据的标签。人学习和机器学习的对标如下:

人 学习:人 通过 做 习题,并利用 习题答案 校验,学会知识。

机器学习:机器 通过 挖掘 数据,并利用 数据标签 校验,学会知识。

二、让我们打开黑盒子

接下来,我们把机器学习的黑盒子拆开,看看其中的关键模块和步骤包括哪些。 以人做习题为例,先看看人学习的过程。简单说,人的学习包括三个核心步骤:做题、核对、修正。面对习题,人会用已有的知识体系去尝试解决,得到计算结果。随后将计算结果与标准答案进行核对,判断结果是否正确。如果结果正确,则加强知识体系的认知;如果结果错误,则分析原因并修正知识体系。

同样的,机器学习也包括三个核心步骤:模型、策略、算法。 1)模型。面对待预测的样本,机器采用某个模型来作出预测。2)策略。通过某个策略,将预测的结果和数据的标签进行核对,判断预测结果的正确性如何。3)算法。利用某个算法,基于预测结果的正确或错误来修正模型,完成一次学习的过程。如下图。
图片描述

​ 机器学习的三个核心步骤,在李航的《统计学习方法》中定义为统计学习三要素,在我公众号 "算法入门速成班" 中定义为机器学习的套路。不管哪种说法,核心都是在强调这三个步骤的重要性。这里,我给读者提出要求:三个步骤以及上面的图,请牢牢记在心中,并在后面章节的学习中,不断复习回顾。

三、机器学习建模的 3 把金钥匙及其数学表达

上述的三个核心步骤,就是机器学习建模的 3 把金钥匙。 在这里,我们先把 3 个核心步骤的数学通式写出来,把这个大框架先吃透。

  • 金钥匙一:模型的数学表达。假定输入的数据用向量 x\mathbf{x} 表示①,而它的标签用 y^\hat y 表示②。模型对数据样本 x\mathbf{x} 作出预测,得到预测值 yy。本质上,就是 y=f(w;x)\underline{y=f(\mathbf w;\mathbf x)}w\mathbf w 是模型的某些参数,这就是模型的数学通式;
  • 金钥匙二:策略的数学表达。有了预测值 yy,也有真实值(标签)y^\hat y,就可以衡量本次预测值与真实值的距离。这个距离称为损失函数(Loss Function),用 L(w)L(\mathbf w) 表示。L(w)=loss(y,y^)\underline{L(\mathbf w)=loss(y, \hat{y})},这就是策略的数学表达;
  • 金钥匙三:算法的数学表达。算法的目标,是通过学习使机器进步。进步的表现,是预测值与真实值的距离越来越小。因此,算法的数学表达,就是找到使得损失函数(距离)最小的模型;即 w=argminw(L(w))\underline{\mathbf w=\underset{\mathbf w}{argmin}(L(w))}

深度理解机器学习建模的 3 把金钥匙,是快速入门机器学习的有效道路。 第一把金钥匙,告诉我们有了输入值 x\mathbf x,如何得到预测值 yy。第二把金钥匙,告诉我们预测值 yy 与真实值 y^\hat y 偏差了多少。第三把金钥匙,告诉我们如何去调整参数让偏差不断变小。机器学习建模的 3 把金钥匙组合在一起,就能打开机器学习之门。这一节是本专栏的总纲,想学好机器学习,就要牢牢把握住这三个公式。本专栏后续所有介绍的算法,都将严格按照这 3 把金钥匙的脉络来展开。

四、小结

​ 如果把机器学习看作是个黑盒子,那么这个盒子输入的是数据,输出的就是学习到的知识或模型。打开这个黑盒子后,会发现这里面核心有三个要素,模型、策略、算法。这 3 把金钥匙合在一起,就能开启机器学习的大门。本节内容,读者必须反复理解并牢记。


注释:

①. 本专栏所有向量,采用粗体无箭头字母或非粗体有箭头字母表示,例如 x\mathbf{x},或者 x\vec x。同时,所有向量默认是列向量,通过转置表示行向量。例如,x=[123]\vec x = \begin{bmatrix}1\\2\\3\end{bmatrix}xT=[1,2,3]\mathbf{x}^T = [1,2,3]

②. 本专栏采用 y^\hat y 表示一个样本的真实值,用 yy 表示预测值。

}
立即订阅 ¥ 68.00

你正在阅读课程试读内容,订阅后解锁课程全部内容

千学不如一看,千看不如一练

手机
阅读

扫一扫 手机阅读

给机器学习初学者的极简入门课
立即订阅 ¥ 68.00

举报

0/150
提交
取消