为了账号安全,请及时绑定邮箱和手机立即绑定

Python制作数据分析工具

Alex_Cen 产品经理
难度初级
时长 1小时10分
学习人数
综合评分9.17
20人评价 查看评价
9.2 内容实用
9.1 简洁易懂
9.2 逻辑清晰
  • #(10)quantile values np.percentile(df.iloc[:,0], (1,5,25,50,75,95,99)) df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)] np.percentile(df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)], (1,5,25,50,75,95,99)) json_quantile = {} for i,name in enumerate(df.iloc[:,0:3].columns): print('the %d columns: %s' %(i,name)) json_quantile[name] = np.percentile(df[name][~np.isin(df[name], missSet)], (1,5,25,50,75,95,99)) # 写法1 df_quantife = pd.DataFrame(json_quantile, columns = df.iloc[:,0:3].columns).T # 写法2 df_quantife = pd.DataFrame(json_quantile)[df.iloc[:,0:3].columns].T
    查看全部
  • #(8)Min Values# np.min(df.iloc[:,0]) df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)] np.min(df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)]) df_min = df.iloc[:, 0:3].apply(lambda x:np.min(x[~np.isin(x, missSet)])) #(9)Max Values# np.max(df.iloc[:,0]) df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)] np.max(df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)]) df_max = df.iloc[:, 0:3].apply(lambda x:np.max(x[~np.isin(x, missSet)]))
    查看全部
  • #(6)Mode Values# df_mode = df.iloc[:,0:3].apply(lambda x: stats.mode(x[~np.isin(x, missSet)])[0][0]) #(7)Mode Percentage# df_mode_count = df.iloc[:,0:3].apply(lambda x: stats.mode(x[~np.isin(x, missSet)])[1][0]) df_mode_perct = df_mode_count/df.shape[0]
    查看全部
  • #(4)Mean Values# np.mean(df.iloc[:, 0]) # 没有去除缺失值之前的均值很低 df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)] # 去除缺失值 np.mean(df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)]) # 去除缺失值后的均值计算 df_mean = df.iloc[:,0:3].apply(lambda x:np.mean(x[~np.isin(x, missSet)])) #(5)Median Values# np.median(df.iloc[:,0]) df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)] np.median(df.iloc[:,0][~np.isin(df.iloc[:,0], missSet)]) df_media = df.iloc[:,0:3].apply(lambda x:np.median(x[~np.isin(x, missSet)]))
    查看全部
  • ##1.Basic Analysis## #(1)Missing Value# missSet = [np.nan, 9999999999, -999999] #(2)Count distinct# len(df.iloc[:, 0].unique()) count_un = df.iloc[:, 0:3].apply(lambda x:len(x.unique())) #(3)Zero Values# np.sum(df.iloc[:,0] == 0) count_zero = df.iloc[:, 0:3].apply(lambda x:np.sum(x == 0))
    查看全部
  • ##0.Read Data## df = pd.read_csv('train.csv') label = df['TARGET'] df = df.drop(['ID','TARGET'], axis=1)
    查看全部
  • 完整代码
    查看全部
    0 采集 收起 来源:4.1 工具整合

    2018-01-15

首页上一页45678下一页尾页

举报

0/150
提交
取消
课程须知
适合人群:希望从传统分析人员转型到数据挖掘和机器学习领域的人员;技术储备:python基本知识,统计学基本知识
老师告诉你能学到什么?
1.用Python制作一个高效的数据诊断工具; 2.数据诊断的各种指标;

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!