首页手记 Python信贷数据处理与初步分析（ZIP解压）

Python信贷数据处理与初步分析（ZIP解压）

标签：

Python

#!/usr/bin/python
# coding=utf-8
'''
@author: lenovo
@software: 3.6 PyCharm
@file: 8W信贷数据处理.py
@time: 20170531
@function:Credit data processing and preliminary analysis
信贷数据处理与初步分析
@edition :1.0
'''
#导入模块
from __future__ import division, print_function
import os
import pandas as pd
import zipfile
#设置文件位置文件夹名（本文件为zip）
dataset_path = 'C:\\Users\lenovo\Desktop...\dataset'
#设置文件名注意后缀
zip_file_name = 'loan.zip'
#此位置CSV
csv_file_name = './loan.csv'
def run_main():
'''
主函数
'''
zip_file_path=os.path.join(dataset_path,zip_file_name)
csv_file_path=os.path.join(dataset_path,csv_file_name)
#如果不存在CSV文件，解压zip文件
if not os.path.exists(csv_file_path):
with zipfile.ZipFile(zip_file_path) as zf:
zf.extractall(dataset_path)
# 读取数据
raw_data = pd.read_csv(csv_file_path,engine='python')
#查看数据集
print('\n数据预览：',raw_data.head())
print(' \n 数据描述: ')
print(raw_data.describe())
print('\n数据集基本信息: ')
print(raw_data.info())
#选择列
used_cols = ['loan_amnt', 'term', 'int_rate', 'grade', 'issue_d', 'addr_state']
used_data = raw_data[used_cols]
print('\n数据预览',used_data.head())
# #Q:按月份统计借贷金额
print('\n时间序列转换ING')
#原来为dec_12 改为 datetime
used_data['issue_d2']=pd.to_datetime(used_data['issue_d'])
print('\n数据预览')
print(used_data.head())
print('\数据基本信息',used_data.info)
#分组求和
data_group_by_date=used_data.groupby(['issue_d2']).sum()
#给新列命名
data_group_by_date.reset_index(inplace=True)
#apply(直接跟函数M)
data_group_by_date['issue_month']=data_group_by_date['issue_d2'].apply(lambda x:x.to_period('M'))
load_amout_group_by_month=data_group_by_date.groupby('issue_month')['loan_amnt'].sum()
#结果转换为dataframe
load_amout_group_by_month_df=pd.DataFrame(load_amout_group_by_month).reset_index()
print('\n按月统计借贷总额预览：',load_amout_group_by_month_df.head())
#保存结果，输出结果为load_amout_group_by_month无df
load_amout_group_by_month_df.to_csv('C:/Users/lenovo/Desktop/.../output/load_amouta_by_month.csv',index=False)
#Q:按州统计借贷金额`
data_group_by_state=used_data.groupby(['addr_state'])['loan_amnt'].sum()
#结果转DATAFRAME
load_amout_group_by_state_df=pd.DataFrame(data_group_by_state).reset_index()
print('/n按州统计预览',data_group_by_state.head())
load_amout_group_by_state_df.to_csv('C:/Users/lenovo/Desktop/...output/load_amout_by_state.csv',index=False)
#Q:借贷评级、期限和利率关系
#根据grade,term分组，int_rate求平均
data_group_by_grade_term=used_data.groupby(['grade','term'])['int_rate'].mean()
data_group_by_grade_term_df=pd.DataFrame(data_group_by_grade_term).reset_index()
print('/n借贷评级、期限和利率关系预览：',data_group_by_grade_term_df.head())
data_group_by_grade_term_df.to_csv('C:/Users/lenovo/Desktop/...output/intrate_by_grade_term.scv',index=False)
#if exists CSV文件删除，释放空间
if os.path.exists(csv_file_path):
os.remove(csv_file_path)
'''
if used_data['']= :
return
if used_data['']= :
return
else:
return
print(raw_data.head())
'''
if __name__ =='__main__':
run_main()

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕斯卡3302699

算法工程师

手记
篇

粉丝

58

获赞与收藏

314

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27654 933

Python 算法入门教程

15个小节 30538 1177

Python 进阶应用教程

38个小节 73576 1149

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Python信贷数据处理与初步分析（ZIP解压）

阅读免费教程