Python制作数据分析工具_学习笔记

首页免费课 Python制作数据分析工具笔记

Python制作数据分析工具

最热最新

StupidCat_W

数据诊断的目的
1.了解特征的分布，缺失和异常等情况
2.统计指标课直接用于数据与处理

查看全部

0 采集收起来源：1.2 案例介绍
2019-03-19
peppas

先安装好python。numpy包。pandas包。scipy包

查看全部

0 采集收起来源：1.2 案例介绍
2019-02-24
weibo_我是LUFFCIER_0 01:39

课程目标啊

查看全部

0 采集收起来源：1.1 数据诊断介绍
2019-01-02
滕玉龙

基本描述统计：
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999) （#获取缺失值，使用numpy的nan，事先知道缺失值如9999999，-99999）
#(2)Count distinct#
Len(df.iloc[:,0].unique())
（#对异常值的计数，[:,0]表示所有列的第一列开始，然后找到不同值，再计数）
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))
（#如果是多列采用这个形式：apply 函数遍历每一列）
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)
（#还是以第一列为例，找到等于0的，然后将true相加）
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))
（#还是对多列中等于0的加和）

查看全部

0 采集收起来源：3.1 描述统计-计数类(代码演示)
2018-12-09
滕玉龙

统计常规指标：
1.均值、中位数、最大值、最小值等
2.计数类（如统计某值出现多少）
3.缺失值和方差等（方差太小没有区分度，缺失值太多也一样）
分位点、值得频数等（不同的分位点的值相同的情况下，需要关注一下！值得频数就是统计最经常出现的值是谁，有什么比例等）

查看全部

0 采集收起来源：2.3 统计指标介绍
2018-12-09
滕玉龙

数据的诊断：
数据的获取与读取：
数据的获取：Kaggle.
数据的读取：
数据的链接：https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供：Santander（提供不满意用户，使用调查对因变量分析进而建立模型获取不满意

查看全部

0 采集收起来源：2.2 数据获取与数据读取
2018-12-09
滕玉龙 00:31

numpy:　对数组向量化；
pandas:　把数据读成dataframe形式，读写
scipy:　计算，函数，众数等计算
1、编码
2、导入division返回值是一个浮点型的数
3、导入pd，np，scipy中的stats函数

查看全部

0 采集收起来源：2.1 依赖包的介绍
2018-12-09
weixin_慕勒9292892

数据诊断的主要指标

查看全部

0 采集收起来源：2.3 统计指标介绍
2018-11-29
weixin_慕勒9292892

依赖包：
Numpy
Pandas
Scipy

查看全部

0 采集收起来源：2.1 依赖包的介绍
2018-11-29
慕勒9334872

开始学习的第一天

查看全部

0 采集收起来源：1.1 数据诊断介绍
2018-11-18
左玉晶

基本描述统计：
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999) （#获取缺失值，使用numpy的nan，事先知道缺失值如9999999，-99999）
#(2)Count distinct#
Len(df.iloc[:,0].unique())
（#对异常值的计数，[:,0]表示所有列的第一列开始，然后找到不同值，再计数）
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))
（#如果是多列采用这个形式：apply 函数遍历每一列）
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)
（#还是以第一列为例，找到等于0的，然后将true相加）
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))
（#还是对多列中等于0的加和）

查看全部

0 采集收起来源：3.1 描述统计-计数类(代码演示)
2018-11-14
左玉晶

统计常规指标：
1.均值、中位数、最大值、最小值等
2.计数类（如统计某值出现多少）
3.缺失值和方差等（方差太小没有区分度，缺失值太多也一样）
分位点、值得频数等（不同的分位点的值相同的情况下，需要关注一下！值得频数就是统计最经常出现的值是谁，有什么比例等）

查看全部

0 采集收起来源：2.3 统计指标介绍
2018-11-13
左玉晶

数据的诊断：
数据的获取与读取：
数据的获取：Kaggle.
数据的读取：
数据的链接：https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供：Santander（提供不满意用户，使用调查对因变量分析进而建立模型获取不满意客户）
下面进行一个数据的读取：
##0.Read Data##
df =pd.read_csv("./data/train. csv") #获取要读取的文件格式并命名为df;
#csv是第一行代码读取的格式；./data/train. csv这个路径也是可以根据自己保存的不同进行更改的。
label = df ['TARGET'] #将要预测的目标名称赋值给lable；
#要预测的目标label，TARGET是要预测目标的名字
df=df.drop( ['ID, 'TARGET'], axis=1) #将不需要的列给删除掉；
#将不需要的变量删掉，axis=1表示轴=1；（['ID, 'TARGET'], axis=1）表示删除ID和TARGET这两列。

查看全部

0 采集收起来源：2.2 数据获取与数据读取
2018-11-13
左玉晶

依赖包：
Numpy、Pandas、Scripy
依赖包的导入：（一般采用）
#-*-coding:utf-8_*_
from _future_ import division
import pandas as pd
import numpy as np
from scipy import stats

查看全部

0 采集收起来源：2.1 依赖包的介绍
2018-11-13
qq_半字浅眉_1

from _future_ import division 确保一个数除以另外一个数不等于0，会返回一个浮点型的数

查看全部

0 采集收起来源：2.1 依赖包的介绍
2018-09-06