为了账号安全,请及时绑定邮箱和手机立即绑定

机器学习中的统计学基础

标签:
R语言

统计学:搜集数据、整理数据、分析数据,挖掘数据背后隐含的价值。

统计学核心三点:

  • 集中趋势

  • 离散程度

  • 分布形状

一、衡量一组数据集中趋势的指标包括(平均数、中位数、众数)

平均数:用于描述一组数据的整体平均水平,极值(极大值、极小值)会影响平均水平。计算公式 u=(x1+x2+x3+...+xn)/N。

中位数:一组数据从大到小(或者从小到大)排列后中间的那个数(偶数/奇数是不同的)。

众数:一组数据中出现最多的那个数。(数值/字符类型)。

使用R语言实现平均数、中位数、众数。

(1)平均数在R语言中的实现:

data<-c(5000,5500,8000,9000,12000,17000,18000)

mean(data)

(2)中位数在R语言中的实现:

median(data)

(3)众数在R语言中的实现:

 zhongshu<-function(x){return(as.numeric(names(table(x))[table(x) == max(table(x))]))}

zhongshu(data)

二、衡量一组数据离散程度的指标(极差、方差)

极差:一组数据的最大值-最小值。极差越小,观察值越集中。

方差(总体):((x1-x平均)^2+(x2-x平均)^2+...+(xn-x平均)^2))/N。方差越小,观察值越集中。

使用R语言实现极差、方差。

(1)极差

max(data)-min(data)

(2)方差

fangcha<-function(x){return (sum((x-mean(x))^2)/length(x))}

fangcha(data)

三、衡量一组数据分布形状的指标(偏态skewness、峰度kurtosis)

使用R语言实现偏态和峰度,需要提前引入moments包。

install.packages('moments')  安装moments包

偏态 skewness(data)

峰度 kurtosis(data) 


注:知道某一个概念的含义,以及如何去实现,不必钻牛角尖。例如:众数的函数实现、方差的函数实现,直接copy使用即可。



点击查看更多内容
1人点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消