-
机器学习和数据分析的区别 数据分析:交易数据、少量数据、采样分析。对数据一致性要求严格,使用关系型数据库sql serve、mysql、oracle。 机器学习:行为数据、海量数据、全量分析。需要保证数据吞吐量,数据一致性可以打折扣,所以用NoSQL数据库(MongoDB、nosql)和分布式数据分析平台(Hadoop、Spark)。查看全部
-
机器学习常见算法(1)ICDM 1.分类---C4.5使用决策树算法,可以解决【分类】&【回归】问题; 2.聚类---K-Means算法,属于无监督方法,解决电信用户分类问题; 3.统计学习---SVM(支持向量机)可以解决分类(主)和回归问题,有很好的表现和深厚的数学理论支撑,曾经被认为是最好的分类算法。现在光芒被【深度学习】掩盖了。有一定的数学门槛,面试中经常被问。 4.关联分析---Apriori应用于“尿片和纸尿裤”案例,最早解决了频繁项集问题。由于需要频繁访问数据库,已被淘汰。取代它的是华人开的【FP-Growth】算法。应用:电商的推荐系统,但目前有更好的替代方法。 5.统计分析---EM算法是一个算法框架,用于解决一系列问题。 6.连接挖掘---PageRank。Google使用的网页排序算法,很著名。 7.集装与推进---AdaBoosts算法,应用于人脸识别,本质为改进的决策树算法,属于有监督的分类算法。 8.分类---kNN。相对简单的分类算法,有监督。 9.分类---Naive Bayes朴素贝叶斯算法,用于识别垃圾邮件。 目前不常用的算法:Apriori和CART。查看全部
-
1.机器学习:利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。 2.关键字:计算机-历史数据-规律-不确定 3.规律=数学函数=数学公式查看全部
-
算法分类3(模型的本质) 生成模型:用来说明分类问题。返回的是属于各个类的概率-->更有可能的是什么。 判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别-->是什么不是什么。查看全部
-
C4.5、CART:属于决策树算法,既可以解决分类问题,也可以解决回归问题。主要解决分类问题。属于有监督算法。很少使用。 K-Means:聚类算法,无监督学习算法。 SVN:主要解决分类问题,最好的分类算法,有完整的数学理论。(重要) Apriori:关联分析算法,淘汰,多次访问数据库代价高。 FP-Grows:Apriori的升级版,只需对数据库进行两遍扫描。 EM:总的算法框架,不针对某一具体问题。 AdaBoost:决策树的改进版,主要用于人脸识别,本质上解决分类问题。属于有监督学习。 kNN:分类算法,有监督学习。与K-Means有点像。 9:垃圾邮件识别。查看全部
-
机器学习: 利用计算机从历史数据中找到规律,并把这些规律用到对未来不确定场景的决策。 判断、决策 主体的不同:计算机--机器学习、人--数据分析。数据分析是依靠人从历史数据中找到规,学习效果很大程度以来于人的经验与知识水平,机器学习就是想要抛弃对人的依赖,靠机器来挖掘规律。 数据:机器学习只是解决问题的框架、算法,需要数据,数据量越大越准确。 规律:通过机器学习不同的算法去找规律,不同的算法结果不同。查看全部
-
14.机器学习和数据分析的区别 数据特点 交易数据【跟钱有关系】【一致性强】 VS 行为数据【用户的历史行为】【no SQL数据库 像mongoDB】 少量数据 VS 海量数据 采样分析 VS 全量分析 15.数据分析(OLAP)(报告过去的事情) 机器学习(预测未来的事情) 16.机器学习算法分类 有监督学习【已经打上标签】 无监督学习【聚类 自己推测标签】 半监督学习 根据内容: 分类与回归 聚类 标注 很重要: 生成模型【告诉你样本属于哪个类的概率】 判别模型 【告诉你结果】 17.分类 C4.5 聚类 K-Means 统计学习 SVM 关联分析 Apriori 【基本淘汰 代价太大】 统计学习 EM 链接挖掘 PageRank 【谷歌】 集装与推进 AdaBoost [人脸识别] 分类 kNN Naive Bayes CART 高级算法: FP-Growth 逻辑回归 RF GBDT 推荐算法 LDA Word2Vector HMM CRF 深度学习 18.机器学习解决问题 确定目标: 业务需求 收集数据 特征工程【70%】 训练模型: 定义模型-产生公式(根据具体要解决的问题) 定义损失函数(预测的结果与真实的结果之间的偏差最小的函数) 优化算法(使损失函数取极小值) 模型评估: 交叉验证 效果评估 19.图片中的每一个像素点是以一个rgb来存的red,green,blue来表示每个成分有多大来存 的,每个图是一个二进制的文件 20.K-Means聚类的算法,特征工程就是将图片以向量或是其他的形式来表示的查看全部
-
K-Means聚类的算法,特征工程就是将图片以向量或是其他的形式来表示的查看全部
-
这个是按照色彩来聚类的,而不是分清是小汽车还是花,还是建筑物之类的深度学习的范畴查看全部
-
先有一个业务需求,然后是数据收集,最后是特征工程,特征工程工作量大概占70%(数据转换和数据清洗),相对于算法提升更容易提高最后成果的质量
查看全部 -
机器学习算法分类
算法分类(1):有监督学习、无监督学习、半监督学习
算法分类(2):分类与回归、聚类、标注
(重要)算法分类(3):生成模型、判别模型
查看全部 -
从数据中寻找规律:
传统统计学的处理方式:抽样--描述统计--结论---假设检验观察数据----用模型刻画(拟合)规律(函数---函数曲线---拟合)
查看全部 -
机器学习概念
查看全部 -
用户细分精准营销:聚类(根据消费记录得出消费特征进行用户分类)
查看全部 -
机器学习
《概率论》、《数据统计》
统计学受限于运算能力的限制,
统计学依赖于采样的数据,需要验证结论
观察数据:上下波动、总体上升
且模型刻画规律, 函数-》公式
-----------------------------------------
机器学习发展的原动力:
经济驱动,数据变现
-----
业务系统发展的历史:
基于专家经验
基于统计--分纬度统计
机器学习--在线学习(电商、搜索 实时学习、分析、推荐)
离线机器学习(不实时)
------
机器学习的典型应用:
购物篮分析:
算法是:关联规则(典型的数据挖掘的算法)
用户细分精准营销:
聚类
垃圾邮件识别:
朴素贝尔斯
信用卡欺诈:
决策树
互联网广告:
ctr预估(点击率的预估)
推荐系统:
协同过滤。
-------
典型应用自然语言处理和图像识别
自然语言处理:
情感分析、
实体识别
图像识别:
深度学习
语音识别
个性化医疗、自动驾驶、智慧机器人、
机器学习无处不在
------------
机器学习和数据分析的区别
传统:交易数据、少量数据、采样分析
现:行为数据、海量数据、全量分析(no sql 只能处理行为数据)
区别2:
传统:报告解决历史事情、
现:预测未来
技术手段不同:
传统:用户驱动、交互式分析
现:数据驱动、自动进行知识发现
参与者不同:
数据分析:分析师
机器学习:数据+算法
目标用户:
数据分析:公司高层
机器学习:个体
------------------
机器学习算法分类:
算法分类:
有监督学习:分类算法、回归算法
无监督学习:聚类
半监督学习(强化学习算法):
算法分类2:
分类与回归
聚类
标注
算法分类3:
生成模型
判别模型机器学习常见算法一览
(大部分的人脸识别是通过 adaboost 算出来的,是决策树的改进版。apriori基本被淘汰,FP-Growth是它的升级版,是一个美籍华人发明出来的、)
百度搜索的排序就是用的 “逻辑回归”的算法
推荐算法:各大电商网站的标配LDA是用途文本分析的。
------
机器学习解决问题:
总的框架:(公用的思想)
确定目标
业务需求、
数据、
特征工程(投入70%)训练模型:
定义模型、
定义损失函数、
优化算法模型评估:
交叉验证、
效果评估查看全部
举报