Python制作数据分析工具_学习笔记

首页免费课 Python制作数据分析工具笔记

Python制作数据分析工具

最热最新

霜花似雪 04:04

统计常规指标：
1.均值、中位数、最大值、最小值等
2.计数类（如统计某值出现多少）
3.缺失值和方差等（方差太小没有区分度，缺失值太多也一样）
4. 分位点、值得频数等（不同的分位点的值相同的情况下，需要关注一下！值得频数就是统计最经常出现的值是谁，有什么比例等）

查看全部

0 采集收起来源：2.3 统计指标介绍
2020-01-04
霜花似雪 01:21

数据的读取

查看全部

0 采集收起来源：2.2 数据获取与数据读取
2020-01-04
霜花似雪 00:20

数据诊断

查看全部

0 采集收起来源：2.2 数据获取与数据读取
2020-01-04
霜花似雪 01:20

依赖包的导入

查看全部

0 采集收起来源：2.1 依赖包的介绍
2020-01-04
霜花似雪 01:07

数据分析依赖包

查看全部

0 采集收起来源：2.1 依赖包的介绍
2020-01-04
霜花似雪 03:47

数据诊断的目的

查看全部

0 采集收起来源：1.2 案例介绍
2020-01-04
霜花似雪 01:02

1. 数据诊断的目的：
1) 了解特征的分布，缺失和异常等情况。（了解了这些情况我们才能更好地做特征工程和数据预处理）
2）统计指标可直接用于数据预处理
数据预处理就是指比如说特征缺失值的填充，缺失值的填充是建模常用的手段。填充的目的有很多。在填充的时候大家一般会采用很多种办法。比如填一个0，-1，1这种常值进去，但是更多的人可能会填一些统计值，比如说中位数、众数这样的值进去。如果要用这种方法填数的话，一般需要对特征值重新计算一遍，如果每次都计算的话，这样会影响整个模型的效率。更好的办法：就是可以从前面预处理的过程和结果中把中位数和众数取到，直接填到缺失里面去，这样可以减少运行计算时间，因为我们只需要提取，不需要计算，这样的话会减少耗时。除了这个以外，我们也有很多的判断，比如数缺失值的比例，众数的比例，也是形容特征工程的一个环节。当我们整个建模的流程形成之后，这些数据诊断的结果也可以起到判断的作用。

查看全部

0 采集收起来源：1.2 案例介绍
2020-01-04
霜花似雪 00:35

数据诊断

查看全部

0 采集收起来源：1.2 案例介绍
2020-01-04
Foamed

依赖包包括：Numpy,Pandas,Scipy

查看全部

0 采集收起来源：2.1 依赖包的介绍
2019-10-03
Foamed

了解特征分布，缺失和异常
统计指标可直接用于数据预处理

查看全部

0 采集收起来源：1.2 案例介绍
2019-10-03
慕沐0289973

清洗数据，是必要之必要的，准备步骤要做好

查看全部

0 采集收起来源：1.2 案例介绍
2019-08-19
慕沐0289973 03:03

为了更高效地学习，这次尝试从结果出发来学习 python，看不懂的部分，回头再查找入门课程。
依赖包-待安装
特殊值、描述值-待查概念

查看全部

0 采集收起来源：1.1 数据诊断介绍
2019-08-19
MariaBrown

1.缺失值不应该存在于EDA中。缺失值是通过分析得出来的。
2.数据导入-》数据分析-》工具

查看全部

0 采集收起来源：5.1 课程总结
2019-08-16
MariaBrown

1.# 2.Calculating Running time
import timeit

start = timeit.default_timer()
df_eda_summary = eda_analysis(missSet=[np.nan, 9999999999, -999999], df=df.iloc[:, 0:3])
print('EDA Running Time: {0:.2f} seconds'.format(timeit.default_timer() - start))
上面是时间的测试示例，我们去测试每一块所用时间，由此可以判断我们的优化重点，经过测试可知，众数部分的时间较长，所以我们后期可对这一部分进行优化，优化的方法有：1）注释掉没用的代码 2）使用更好的方法去替代原有方法。

查看全部

0 采集收起来源：4.2 工具性能和效率测试
2019-08-16
MariaBrown

1.整合核心代码：
# 12.Combine All Information
    df_eda_summary = pd.concat(
        [count_un, count_zero, df_mean, df_median, df_mode,
         df_mode_count, df_mode_perct, df_min, df_max, df_fre,
         df_miss], axis=1
    )
    # 左边是特征，上边是有多少统计描述，就拼多少

查看全部

0 采集收起来源：4.1 工具整合
2019-08-16

首页上一页 1 2 3 4 5 6 7 下一页尾页

0/150

提交

取消

开始学习

课程须知: 适合人群：希望从传统分析人员转型到数据挖掘和机器学习领域的人员；技术储备：python基本知识，统计学基本知识

老师告诉你能学到什么？: 1.用Python制作一个高效的数据诊断工具; 2.数据诊断的各种指标;

微信扫码，参与3人拼团

热搜

最近搜索清空

Python制作数据分析工具