为了账号安全,请及时绑定邮箱和手机立即绑定

初识机器学习-理论篇

stonedog 全栈工程师
难度入门
时长 1小时48分
学习人数
综合评分9.57
289人评价 查看评价
9.5 内容实用
9.6 简洁易懂
9.6 逻辑清晰
  • 机器学习和数据分析的区别 数据分析:交易数据、少量数据、采样分析。对数据一致性要求严格,使用关系型数据库sql serve、mysql、oracle。 机器学习:行为数据、海量数据、全量分析。需要保证数据吞吐量,数据一致性可以打折扣,所以用NoSQL数据库(MongoDB、nosql)和分布式数据分析平台(Hadoop、Spark)。
    查看全部
  • 机器学习常见算法(1)ICDM 1.分类---C4.5使用决策树算法,可以解决【分类】&【回归】问题; 2.聚类---K-Means算法,属于无监督方法,解决电信用户分类问题; 3.统计学习---SVM(支持向量机)可以解决分类(主)和回归问题,有很好的表现和深厚的数学理论支撑,曾经被认为是最好的分类算法。现在光芒被【深度学习】掩盖了。有一定的数学门槛,面试中经常被问。 4.关联分析---Apriori应用于“尿片和纸尿裤”案例,最早解决了频繁项集问题。由于需要频繁访问数据库,已被淘汰。取代它的是华人开的【FP-Growth】算法。应用:电商的推荐系统,但目前有更好的替代方法。 5.统计分析---EM算法是一个算法框架,用于解决一系列问题。 6.连接挖掘---PageRank。Google使用的网页排序算法,很著名。 7.集装与推进---AdaBoosts算法,应用于人脸识别,本质为改进的决策树算法,属于有监督的分类算法。 8.分类---kNN。相对简单的分类算法,有监督。 9.分类---Naive Bayes朴素贝叶斯算法,用于识别垃圾邮件。 目前不常用的算法:Apriori和CART。
    查看全部
  • 1.机器学习:利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。 2.关键字:计算机-历史数据-规律-不确定 3.规律=数学函数=数学公式
    查看全部
  • 算法分类3(模型的本质) 生成模型:用来说明分类问题。返回的是属于各个类的概率-->更有可能的是什么。 判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别-->是什么不是什么。
    查看全部
  • C4.5、CART:属于决策树算法,既可以解决分类问题,也可以解决回归问题。主要解决分类问题。属于有监督算法。很少使用。 K-Means:聚类算法,无监督学习算法。 SVN:主要解决分类问题,最好的分类算法,有完整的数学理论。(重要) Apriori:关联分析算法,淘汰,多次访问数据库代价高。 FP-Grows:Apriori的升级版,只需对数据库进行两遍扫描。 EM:总的算法框架,不针对某一具体问题。 AdaBoost:决策树的改进版,主要用于人脸识别,本质上解决分类问题。属于有监督学习。 kNN:分类算法,有监督学习。与K-Means有点像。 9:垃圾邮件识别。
    查看全部
  • 机器学习: 利用计算机从历史数据中找到规律,并把这些规律用到对未来不确定场景的决策。 判断、决策 主体的不同:计算机--机器学习、人--数据分析。数据分析是依靠人从历史数据中找到规,学习效果很大程度以来于人的经验与知识水平,机器学习就是想要抛弃对人的依赖,靠机器来挖掘规律。 数据:机器学习只是解决问题的框架、算法,需要数据,数据量越大越准确。 规律:通过机器学习不同的算法去找规律,不同的算法结果不同。
    查看全部
  • 14.机器学习和数据分析的区别 数据特点 交易数据【跟钱有关系】【一致性强】 VS 行为数据【用户的历史行为】【no SQL数据库 像mongoDB】 少量数据 VS 海量数据 采样分析 VS 全量分析 15.数据分析(OLAP)(报告过去的事情) 机器学习(预测未来的事情) 16.机器学习算法分类 有监督学习【已经打上标签】 无监督学习【聚类 自己推测标签】 半监督学习 根据内容: 分类与回归 聚类 标注 很重要: 生成模型【告诉你样本属于哪个类的概率】 判别模型 【告诉你结果】 17.分类 C4.5 聚类 K-Means 统计学习 SVM 关联分析 Apriori 【基本淘汰 代价太大】 统计学习 EM 链接挖掘 PageRank 【谷歌】 集装与推进 AdaBoost [人脸识别] 分类 kNN Naive Bayes CART 高级算法: FP-Growth 逻辑回归 RF GBDT 推荐算法 LDA Word2Vector HMM CRF 深度学习 18.机器学习解决问题 确定目标: 业务需求 收集数据 特征工程【70%】 训练模型: 定义模型-产生公式(根据具体要解决的问题) 定义损失函数(预测的结果与真实的结果之间的偏差最小的函数) 优化算法(使损失函数取极小值) 模型评估: 交叉验证 效果评估 19.图片中的每一个像素点是以一个rgb来存的red,green,blue来表示每个成分有多大来存 的,每个图是一个二进制的文件 20.K-Means聚类的算法,特征工程就是将图片以向量或是其他的形式来表示的
    查看全部
  • K-Means聚类的算法,特征工程就是将图片以向量或是其他的形式来表示的
    查看全部
  • 这个是按照色彩来聚类的,而不是分清是小汽车还是花,还是建筑物之类的深度学习的范畴
    查看全部
  • 先有一个业务需求,然后是数据收集,最后是特征工程,特征工程工作量大概占70%(数据转换和数据清洗),相对于算法提升更容易提高最后成果的质量

    查看全部
  • 机器学习算法分类

    算法分类(1):有监督学习、无监督学习、半监督学习

    算法分类(2):分类与回归、聚类、标注

    (重要)算法分类(3):生成模型、判别模型

    查看全部
  • 从数据中寻找规律:


      传统统计学的处理方式:抽样--描述统计--结论---假设检验

    观察数据----用模型刻画(拟合)规律(函数---函数曲线---拟合)

    查看全部
  • 机器学习概念

    查看全部
  • 用户细分精准营销:聚类(根据消费记录得出消费特征进行用户分类)

    查看全部
    1 采集 收起 来源:典型应用-聚类

    2019-03-20

  • 机器学习

    《概率论》、《数据统计》

    统计学受限于运算能力的限制,

    统计学依赖于采样的数据,需要验证结论

    观察数据:上下波动、总体上升

    且模型刻画规律, 函数-》公式

    -----------------------------------------

    机器学习发展的原动力:

    经济驱动,数据变现

    -----

    业务系统发展的历史:

    基于专家经验

    基于统计--分纬度统计

    机器学习--在线学习(电商、搜索 实时学习、分析、推荐)

    离线机器学习(不实时)

    ------

    机器学习的典型应用:

    购物篮分析:

    算法是:关联规则(典型的数据挖掘的算法)

    用户细分精准营销:

    聚类

    垃圾邮件识别:

    朴素贝尔斯


    信用卡欺诈:

    决策树

    互联网广告:

    ctr预估(点击率的预估)


    推荐系统:

    协同过滤。

    -------

    典型应用自然语言处理和图像识别

    自然语言处理:

    情感分析、

    实体识别


    图像识别:

    深度学习

    语音识别


    个性化医疗、自动驾驶、智慧机器人、

    机器学习无处不在


    ------------

    机器学习和数据分析的区别

    传统:交易数据、少量数据、采样分析

    现:行为数据、海量数据、全量分析(no sql 只能处理行为数据)

    区别2:

    传统:报告解决历史事情、

    现:预测未来


    技术手段不同:

    传统:用户驱动、交互式分析

    现:数据驱动、自动进行知识发现


    参与者不同:

    数据分析:分析师

    机器学习:数据+算法


    目标用户:

    数据分析:公司高层

    机器学习:个体


    ------------------

    机器学习算法分类:

    算法分类:

    有监督学习:分类算法、回归算法

    无监督学习:聚类

    半监督学习(强化学习算法):


    算法分类2:

    分类与回归

    聚类

    标注


    算法分类3:
    生成模型
    判别模型

    机器学习常见算法一览

    (大部分的人脸识别是通过 adaboost 算出来的,是决策树的改进版。apriori基本被淘汰,FP-Growth是它的升级版,是一个美籍华人发明出来的、)
    百度搜索的排序就是用的  “逻辑回归”的算法
    推荐算法:各大电商网站的标配

    LDA是用途文本分析的。

    ------

    机器学习解决问题:

    总的框架:(公用的思想)

    确定目标
    业务需求、
    数据、
    特征工程(投入70%)

    训练模型:
    定义模型、
    定义损失函数、
    优化算法

    模型评估:
    交叉验证、
    效果评估

    查看全部

举报

0/150
提交
取消
课程须知
1、有一定数据分析经验。 2、对机器学习有热情的同学。
老师告诉你能学到什么?
1.什么是机器学习 2.机器学习的典型行业案例 3.机器学习和传统数据分析的区别 4.机器学习的经典算法

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!