为了账号安全,请及时绑定邮箱和手机立即绑定
慕课专栏

目录

索引目录

给机器学习初学者的极简入门课

原价 ¥ 68.00

立即订阅
02 机器学习模型在算法项目的位置
更新时间:2019-10-20 16:41:16
每个人都是自己命运的主宰。

——斯蒂尔斯

〇、本节要点

算法项目的两个脉络:

  • 问题线:业务问题 → 机制问题 → 模型问题
  • 评估线:长期跟踪 ← AB 实验 ← 模型评估
  • 算法工程师对模型直接负责,对整个项目要有大局观

建立预测模型的四个步骤:

  • 数据采集、数据加工、建立模型、模型评估

本章导图如下:

图片描述

一、算法项目的两个脉络

在算法项目中,算法工程师的职责,必然包括建立各种各样的预测模型。 然而,这只是算法工程师工作的冰山一角。要看清算法工程师的工作范畴,需要从更上层、更宏观的视角去仔细观察。通常,根据算法项目的不同阶段,有两个极其重要的脉络贯穿着整个项目周期。

第一条脉络:项目的问题线。 1)一切问题来自业务,首先就是业务问题。 公司里所有的项目目的都非常明确,那就是要利用一切资源解决业务问题。例如,今日头条 APP 需要不断提高用户的文章阅读量( Page View,PV )。业务问题的发现,通常来自于事业部负责人等公司高层。2)业务问题需要进行拆解剖析,这就是机制问题。 对业务问题详细分析,拆解出影响业务指标的关键因素,这就是机制要解决的问题。例如,经过分析,得到 :用户的阅读量=曝光量*点击率。假设用户的文章曝光量是一样的(即曝光量是个可控因素),则提高 PV 就被转化为,提高点击率这个不可控因素。这里不可控的因素,指的是人工无法进行判断、掌控或者调节的变量,可理解为是未知的事物。机制问题,通常由项目的负责人来处理。最后,如何让不可控的因素可控就是模型问题。 对于不可控因素,则需要用机器学习来解决,并最终让其可控。这时,问题就转变为模型问题。例如,控制文章的点击率,需要建立一个点击率预测模型。至此,算法工程师闪亮登场,如下图。

图片描述

第二条脉络:效果的评估线。 1)首先,需要确保最底层的模型是正确的,也就是模型评估。 对于模型,感性的认知,是让不可控的因素变得可控。用专业的话术,模型就是在对未知事物进行预测。既然是预测,人们就会关注这个预测的正确性有多少。2)验证机制是否正确,可采用 AB 实验 来评估。如果你的模型效果很好,那时需要做的就是开展 AB 实验,来验证机制是否是正确的。举例来说,假设点击率可以准确预测,则通过把点击率高的文章曝光给用户,就构建了一套简单的推荐系统。但这个系统可能会导致用户失去了阅读文章的多样性(如喜欢武侠的用户被推荐的都是武侠书评,用户会觉得这个 APP 内容面太窄),降低了在线时长,而降低曝光量。这个潜在风险,只能通过 AB 实验来验证。具体可以让一部分用户无推荐系统的影响,另一部分用户受推荐系统的影响,并持续对比两组用户的阅读量、在线时长等指标,评估推荐系统对业务指标的影响程度。3)全量上线后的长期跟踪。 经过了 AB 实验后,就可以在全量用户上扩大这个项目的影响范围。这里常用同比、环比等长期跟踪监控 的方式来评估推荐系统对 PV 提高的程度。如下图。

图片描述

这两条脉络的路径反向对应。 问题,是从上到下逐级拆解得到。而评估,则是逐层确保没有问题后,由下向上对齐交付。每个环节都必须准确可量化,才能保证一个算法项目能顺利进行。通常而言,上层的没必要知道模型实现的细节。然而底层的工程师,则必须了解问题拆解的脉络,否则就很有可能做出不被业务认可的模型。这就要求算法工程师必须具备项目大局观 ①。算法工程师在其中直接负责的模块,就是模型问题这个内核,此处需要用机器学习的算法予以解决。整体来看如下图,这就是模型在算法项目中的位置。

图片描述

二、建立预测模型的步骤

建立预测模型就需要用到机器学习的技术。 建立预测模型可以让不可控制的因素得到控制,进一步反向沿着问题线解决业务问题。至此,项目的阻塞点就在于这个模型。建立模型就是对数据学习得到新知识,并用新知识来解决未知问题。这个过程则需要用到机器学习的技术。

粗略来看,利用机器学习建立预测模型有四个基本步骤。 这四个步骤为:数据采集、数据加工、建立模型、模型评估。结合前面点击率预测的例子,看一下这四个步骤的作用。首先,为了得到预测模型,少不了要收集大量的数据,也叫粗数据。此时需要大量收集用户与文章之间的阅读(点击)或不阅读(不点击)的数据,例如用户 1 阅读了文章 1,用户 1 未阅读文章 2。第二步,在采集足够的数据之后,需要对数据进行加工处理。这主要是因为,原始的粗数据必然存在格式不统一、某些字段缺失等一系列问题。加工过程就是让这些非结构化的粗数据更加工整规范,形成结构化的数据后再进行下一步的操作。经过加工后,所有数据都会被处理为结构化的数据,甚至是数字。例如,用户 1 被处理为 (1.4,1.5)(1.4,1.5) 这样的向量。接下来,就是采用机器学习的技术对结构化的数据进行学习,进而得到预测模型。这个模型,就是自变量和预测变量之间的一个映射函数。有了这个函数,就可以对任意一对用户和文章是否会产生阅读的行为进行预测。最后再对模型的预测效果进行评估,会得到误差相关的一些评估结果。整体流程如下图。本专栏重在讲述机器学习技术的内核,因此重点将放在如何建立模型以及如何评估模型这两个模块。

图片描述

三、小结

算法项目通常都会具有两个脉络。一个是问题拆解的脉络,也就是回答了为什么要做这个模型。另一个是效果评估的脉络,也就是这个系统或模型做得有多正确。算法工程师需要具备项目的大局观,既对技术模型负责,也对业务突破负责。利用机器学习建立预测模型包括四个步骤,机器学习技术主要为建立模型和模型评估服务。


①. 永远要记住,所有的模型问题来自业务。算法工程师如果对业务不了解、不具备大局观,极有可能浪费时间做了很多不被业务方认可的工作。

}
立即订阅 ¥ 68.00

你正在阅读课程试读内容,订阅后解锁课程全部内容

千学不如一看,千看不如一练

手机
阅读

扫一扫 手机阅读

给机器学习初学者的极简入门课
立即订阅 ¥ 68.00

举报

0/150
提交
取消