Python制作数据分析工具_学习笔记

首页免费课 Python制作数据分析工具笔记

Python制作数据分析工具

最热最新

JustDoItImooc

吐槽一下，数据还得自己下。下载的哪个你还不知道。福利来了，这是网址。Ctrl+c and Ctrl+v 搞定 https://www.kaggle.com/c/santander-customer-satisfaction/data

查看全部

3 采集收起来源：2.2 数据获取与数据读取
2018-01-17
Roc_J

基本描述统计值
特殊值描述值
缺失值

查看全部

1 采集收起来源：1.1 数据诊断介绍
2018-06-25
JustDoItImooc 00:35

#(12)Miss Values np.sum(np.isin(df.iloc[:,0], missSet)) df_miss = df.iloc[:,0:3].apply(lambda x:np.sum(np.isin(x, missSet))) 我感觉我也可以在慕课开课了，大家加油

查看全部

1 采集收起来源：3.7 统计描述-缺失值
2018-01-17
JustDoItImooc

#(11)Frequent Values df.iloc[:,0].value_counts().iloc[0:5,] df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)] df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)].value_counts()[0:5,] json_fre_name = {} json_fre_count = {} def fill_fre_top_5(x): if len(x) <= 5: new_array = np.full(5, np.nan) new_array[0:len(x)] = x return new_array df['ind_var1_0'].value_counts() len(df['imp_sal_var16_ult1'].value_counts()) for i,name in enumerate(df[['ind_var1_0','imp_sal_var16_ult1']].columns): index_name = df[name][~np.isin(df[name], missSet)].value_counts().iloc[0:5,].index.values index_name = fill_fre_top_5(index_name) json_fre_name[name] = index_name values_count = df[name][~np.isin(df[name], missSet)].value_counts().iloc[0:5,].values values_count = fill_fre_top_5(values_count) json_fre_count[name] = values_count df_fre_name = pd.DataFrame(json_fre_name)[df[['ind_var1_0','imp_sal_var16_ult1']].columns].T

查看全部

1 采集收起来源：3.6 描述统计-频数
2018-03-22
JustDoItImooc 01:14

# coding:utf-8 from __future__ import division import numpy as np import pandas as pd from scipy import stats

查看全部

1 采集收起来源：2.1 依赖包的介绍
2018-01-17

weixin_慕仔5141889 09:59

定义缺失值。np.nan是Numpy缺失的一个表示
计数值，
len来计数
apply函数遍历每一列

df.iloc[指定的行数开头:指定的行数结尾，指定的列数]
unique函数看这一个特征有多少个不同的值

找0值

df.iloc[:,0:3] ==0 会返回每一个值是否是0的一个数组True或者False
np.sum对数组取和（True当作1，False当作0）算出有多少个True

查看全部

0 采集收起来源：3.1 描述统计-计数类(代码演示)

2024-03-13

weixin_慕仔5141889 04:10

统计指标可以自己去构建，以上是常规指标

查看全部

0 采集收起来源：2.3 统计指标介绍
2024-03-13
weixin_慕仔5141889 03:57
1. 读取下载的数据。把数据集都进来命名df
2. lable属于预测目标，‘TARGET’就是特征的名字。在df中把因变量TARGET取出来命名为lable
3. 删除掉一些不需要的值。把ID,TARGET这两列去掉重新赋值为df
查看全部

0 采集收起来源：2.2 数据获取与数据读取
2024-03-13
weixin_慕仔5141889 02:20

依赖包：Numpy
Pandas
Scipy

查看全部

0 采集收起来源：2.1 依赖包的介绍
2024-03-13
high_flyer_1_叶猴 02:10

依赖包：1、numpy 2、pandas 3、scipy

查看全部

0 采集收起来源：2.1 依赖包的介绍
2021-09-07
high_flyer_1_叶猴 06:44

数据诊断的目的：1、了解特征的分布，缺失和异常等情况 2、统计指标可直接用于数据预处理

查看全部

0 采集收起来源：1.2 案例介绍
2021-09-07
白云94 00:10

测试

查看全部

0 采集收起来源：1.1 数据诊断介绍
2021-05-31
勇往直前3 01:46

统计指标介绍

查看全部

0 采集收起来源：2.3 统计指标介绍
2021-01-21
勇往直前3 00:54

数据获取与读取1

查看全部

0 采集收起来源：2.2 数据获取与数据读取
2021-01-21
勇往直前3 03:44

数据诊断目的

查看全部

0 采集收起来源：1.2 案例介绍
2021-01-20