初识机器学习-理论篇_学习笔记

首页免费课初识机器学习-理论篇笔记

初识机器学习-理论篇

最热最新

chaosbead 06:09

机器学习和数据分析的区别数据分析：交易数据、少量数据、采样分析。对数据一致性要求严格，使用关系型数据库sql serve、mysql、oracle。机器学习：行为数据、海量数据、全量分析。需要保证数据吞吐量，数据一致性可以打折扣，所以用NoSQL数据库（MongoDB、nosql）和分布式数据分析平台（Hadoop、Spark）。

查看全部

2 采集收起来源：数据分析和机器学习的区别（1）
2017-12-25
迷雾三点水 00:24

机器学习常见算法（1）ICDM 1.分类---C4.5使用决策树算法，可以解决【分类】&【回归】问题； 2.聚类---K-Means算法，属于无监督方法，解决电信用户分类问题； 3.统计学习---SVM（支持向量机）可以解决分类（主）和回归问题，有很好的表现和深厚的数学理论支撑，曾经被认为是最好的分类算法。现在光芒被【深度学习】掩盖了。有一定的数学门槛，面试中经常被问。 4.关联分析---Apriori应用于“尿片和纸尿裤”案例，最早解决了频繁项集问题。由于需要频繁访问数据库，已被淘汰。取代它的是华人开的【FP-Growth】算法。应用：电商的推荐系统，但目前有更好的替代方法。 5.统计分析---EM算法是一个算法框架，用于解决一系列问题。 6.连接挖掘---PageRank。Google使用的网页排序算法，很著名。 7.集装与推进---AdaBoosts算法，应用于人脸识别，本质为改进的决策树算法，属于有监督的分类算法。 8.分类---kNN。相对简单的分类算法，有监督。 9.分类---Naive Bayes朴素贝叶斯算法，用于识别垃圾邮件。目前不常用的算法：Apriori和CART。

查看全部

2 采集收起来源：机器学习常见算法和分类（2）
2018-03-22
慕移动3660151

1.机器学习：利用计算机从历史数据中找出规律，并把这些规律用到对未来不确定场景的决策。 2.关键字：计算机-历史数据-规律-不确定 3.规律=数学函数=数学公式

查看全部

2 采集收起来源：什么是机器学习
2017-09-08
未名公子

算法分类3（模型的本质）生成模型：用来说明分类问题。返回的是属于各个类的概率-->更有可能的是什么。判别模型：用来说明分类问题。直接给一个函数，数据输入到函数中，直接返回类别-->是什么不是什么。

查看全部

2 采集收起来源：机器学习常见算法和分类（1）
2018-03-22
没死接着学 02:55

C4.5、CART：属于决策树算法，既可以解决分类问题，也可以解决回归问题。主要解决分类问题。属于有监督算法。很少使用。 K-Means：聚类算法，无监督学习算法。 SVN：主要解决分类问题，最好的分类算法，有完整的数学理论。（重要） Apriori：关联分析算法，淘汰，多次访问数据库代价高。 FP-Grows：Apriori的升级版，只需对数据库进行两遍扫描。 EM：总的算法框架，不针对某一具体问题。 AdaBoost：决策树的改进版，主要用于人脸识别，本质上解决分类问题。属于有监督学习。 kNN：分类算法，有监督学习。与K-Means有点像。 9：垃圾邮件识别。

查看全部

2 采集收起来源：机器学习常见算法和分类（2）
2017-02-16
没死接着学

机器学习：利用计算机从历史数据中找到规律，并把这些规律用到对未来不确定场景的决策。判断、决策主体的不同：计算机--机器学习、人--数据分析。数据分析是依靠人从历史数据中找到规，学习效果很大程度以来于人的经验与知识水平，机器学习就是想要抛弃对人的依赖，靠机器来挖掘规律。数据：机器学习只是解决问题的框架、算法，需要数据，数据量越大越准确。规律：通过机器学习不同的算法去找规律，不同的算法结果不同。

查看全部

2 采集收起来源：什么是机器学习
2017-02-16
慕移动9130976

14.机器学习和数据分析的区别数据特点交易数据【跟钱有关系】【一致性强】 VS 行为数据【用户的历史行为】【no SQL数据库像mongoDB】少量数据 VS 海量数据采样分析 VS 全量分析 15.数据分析（OLAP）（报告过去的事情）机器学习（预测未来的事情） 16.机器学习算法分类有监督学习【已经打上标签】无监督学习【聚类自己推测标签】半监督学习根据内容：分类与回归聚类标注很重要：生成模型【告诉你样本属于哪个类的概率】判别模型【告诉你结果】 17.分类 C4.5 聚类 K-Means 统计学习 SVM 关联分析 Apriori 【基本淘汰代价太大】统计学习 EM 链接挖掘 PageRank 【谷歌】集装与推进 AdaBoost [人脸识别] 分类 kNN Naive Bayes CART 高级算法： FP-Growth 逻辑回归 RF GBDT 推荐算法 LDA Word2Vector HMM CRF 深度学习 18.机器学习解决问题确定目标：业务需求收集数据特征工程【70%】训练模型：定义模型-产生公式（根据具体要解决的问题）定义损失函数（预测的结果与真实的结果之间的偏差最小的函数）优化算法（使损失函数取极小值）模型评估：交叉验证效果评估 19.图片中的每一个像素点是以一个rgb来存的red，green，blue来表示每个成分有多大来存的，每个图是一个二进制的文件 20.K-Means聚类的算法，特征工程就是将图片以向量或是其他的形式来表示的

查看全部

2 采集收起来源：机器学习-图片识别demo演示
2016-09-23
慕粉1473867844

K-Means聚类的算法，特征工程就是将图片以向量或是其他的形式来表示的

查看全部

2 采集收起来源：机器学习-图片识别demo演示
2016-09-15
慕粉1473867844

这个是按照色彩来聚类的，而不是分清是小汽车还是花，还是建筑物之类的深度学习的范畴

查看全部

2 采集收起来源：机器学习-图片识别demo演示
2016-09-15
weixin_慕姐6432486

先有一个业务需求，然后是数据收集，最后是特征工程，特征工程工作量大概占70%（数据转换和数据清洗），相对于算法提升更容易提高最后成果的质量

查看全部

1 采集收起来源：机器学习解决问题（1）
2020-02-23
要做就做周幽王

机器学习算法分类
算法分类（1）：有监督学习、无监督学习、半监督学习
算法分类（2）：分类与回归、聚类、标注
（重要）算法分类（3）：生成模型、判别模型

查看全部

1 采集收起来源：机器学习常见算法和分类（1）
2019-10-15
慕设计4523203

从数据中寻找规律：

传统统计学的处理方式：抽样--描述统计--结论---假设检验
观察数据----用模型刻画（拟合）规律（函数---函数曲线---拟合）

查看全部

1 采集收起来源：从数据中寻找规律
2019-07-17
LittleBocchi 00:31

机器学习概念

查看全部

1 采集收起来源：什么是机器学习
2019-07-07
慕运维4169585

用户细分精准营销：聚类（根据消费记录得出消费特征进行用户分类）

查看全部

1 采集收起来源：典型应用-聚类
2019-03-20
宁宁景

机器学习
《概率论》、《数据统计》
统计学受限于运算能力的限制，
统计学依赖于采样的数据，需要验证结论
观察数据：上下波动、总体上升
且模型刻画规律，函数-》公式
-----------------------------------------
机器学习发展的原动力：
经济驱动，数据变现
-----
业务系统发展的历史：
基于专家经验
基于统计--分纬度统计
机器学习--在线学习（电商、搜索实时学习、分析、推荐）
离线机器学习（不实时）
------
机器学习的典型应用：
购物篮分析：
算法是：关联规则（典型的数据挖掘的算法）
用户细分精准营销：
聚类
垃圾邮件识别：
朴素贝尔斯

信用卡欺诈：
决策树
互联网广告：
ctr预估(点击率的预估)

推荐系统：
协同过滤。
-------
典型应用自然语言处理和图像识别
自然语言处理：
情感分析、
实体识别

图像识别：
深度学习
语音识别

个性化医疗、自动驾驶、智慧机器人、
机器学习无处不在

------------
机器学习和数据分析的区别
传统：交易数据、少量数据、采样分析
现：行为数据、海量数据、全量分析（no sql 只能处理行为数据）
区别2：
传统：报告解决历史事情、
现：预测未来

技术手段不同：
传统：用户驱动、交互式分析
现：数据驱动、自动进行知识发现

参与者不同：
数据分析：分析师
机器学习：数据+算法

目标用户：
数据分析：公司高层
机器学习：个体

------------------
机器学习算法分类：
算法分类：
有监督学习：分类算法、回归算法
无监督学习：聚类
半监督学习（强化学习算法）：

算法分类2：
分类与回归
聚类
标注

算法分类3：
生成模型
判别模型
机器学习常见算法一览
(大部分的人脸识别是通过 adaboost 算出来的，是决策树的改进版。apriori基本被淘汰，FP-Growth是它的升级版，是一个美籍华人发明出来的、)
百度搜索的排序就是用的 “逻辑回归”的算法
推荐算法：各大电商网站的标配
LDA是用途文本分析的。
------
机器学习解决问题：
总的框架：（公用的思想）
确定目标
业务需求、
数据、
特征工程（投入70%）
训练模型：
定义模型、
定义损失函数、
优化算法
模型评估：
交叉验证、
效果评估

查看全部

2 采集收起来源：机器学习-图片识别demo演示
2019-03-04