-
数据诊断的目的
1.了解特征的分布,缺失和异常等情况
2.统计指标课直接用于数据与处理
查看全部 -
先安装好python。numpy包。pandas包。scipy包
查看全部 -
课程目标啊
查看全部 -
基本描述统计:
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999) (#获取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())(#对异常值的计数,[:,0]表示所有列的第一列开始,然后找到不同值,再计数)
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))(#如果是多列采用这个形式:apply 函数遍历每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)(#还是以第一列为例,找到等于0的,然后将true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))(#还是对多列中等于0的加和)
查看全部 -
统计常规指标:
1.均值、中位数、最大值、最小值等
2.计数类(如统计某值出现多少)
3.缺失值和方差等(方差太小没有区分度,缺失值太多也一样)
分位点、值得频数等(不同的分位点的值相同的情况下,需要关注一下!值得频数就是统计最经常出现的值是谁,有什么比例等)
查看全部 -
数据的诊断:
数据的获取与读取:
数据的获取:Kaggle.
数据的读取:
数据的链接:https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供:Santander(提供不满意用户,使用调查对因变量分析进而建立模型获取不满意
查看全部 -
numpy: 对数组向量化;
pandas: 把数据读成dataframe形式,读写
scipy: 计算,函数,众数等计算
1、编码
2、导入division返回值是一个浮点型的数
3、导入pd,np,scipy中的stats函数
查看全部 -
数据诊断的主要指标查看全部 -
依赖包:
Numpy
Pandas
Scipy
查看全部 -
开始学习的第一天
查看全部 -
基本描述统计:
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999) (#获取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())(#对异常值的计数,[:,0]表示所有列的第一列开始,然后找到不同值,再计数)
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))(#如果是多列采用这个形式:apply 函数遍历每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)(#还是以第一列为例,找到等于0的,然后将true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))(#还是对多列中等于0的加和)
查看全部 -
统计常规指标:
1.均值、中位数、最大值、最小值等
2.计数类(如统计某值出现多少)
3.缺失值和方差等(方差太小没有区分度,缺失值太多也一样)
分位点、值得频数等(不同的分位点的值相同的情况下,需要关注一下!值得频数就是统计最经常出现的值是谁,有什么比例等)
查看全部 -
数据的诊断:
数据的获取与读取:
数据的获取:Kaggle.
数据的读取:
数据的链接:https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供:Santander(提供不满意用户,使用调查对因变量分析进而建立模型获取不满意客户)
下面进行一个数据的读取:
##0.Read Data##
df =pd.read_csv("./data/train. csv") #获取要读取的文件格式并命名为df;#csv是第一行代码读取的格式;./data/train. csv这个路径也是可以根据自己保存的不同进行更改的。
label = df ['TARGET'] #将要预测的目标名称赋值给lable;
#要预测的目标label,TARGET是要预测目标的名字
df=df.drop( ['ID, 'TARGET'], axis=1) #将不需要的列给删除掉;
#将不需要的变量删掉,axis=1表示轴=1; (['ID, 'TARGET'], axis=1)表示删除ID和TARGET这两列。
查看全部 -
依赖包:
Numpy、Pandas、Scripy
依赖包的导入:(一般采用)
#-*-coding:utf-8_*_
from _future_ import division
import pandas as pd
import numpy as np
from scipy import stats查看全部 -
from _future_ import division 确保一个数除以另外一个数不等于0,会返回一个浮点型的数
查看全部
举报