Python数据分析-基础技术篇_学习笔记

首页免费课 Python数据分析-基础技术篇笔记

Python数据分析-基础技术篇

最热最新

慕虎2166402 06:14

pandas
scilit-learn 数据建模，聚类分析等等

查看全部

0 采集收起来源：概述
2020-03-29
慕虎2166402 04:39

numpy, scipy,matplotlib

查看全部

0 采集收起来源：概述
2020-03-29
慕少7317271

keras 人工神经网络官网，用Python编写，能够在TensorFlow，CNTK或Theano之上运行。

查看全部

0 采集收起来源：认识Keras
2020-03-15
慕少7317271

基于Python的数据挖掘和机器学习的工具包

查看全部

0 采集收起来源：认识scikit-learn
2020-03-15
慕少7317271

# 1 Series & dataFrame 主要的数据结构
# 2 Basic & Select & Set 基本操作
# 3 Missing Data Processing 丢失值处理
# 4 Merge & Reshape 数据融合形状定义
# 5 Time Series & Graph & Files 时间序列图形绘制文件操作

查看全部

0 采集收起来源：认识pandas
2020-03-15
慕少7317271

scipy的应用范围:线性代数、常微分方程、信号处理、图形处理、矩阵等
本次有关内容为：积分、优化器、插值、线性计算与矩阵分解。

查看全部

0 采集收起来源：scipy简介
2020-03-15
慕少7317271

绘制图表，进行数据可视化
pandas：基础数据分析套件
scikit-learn：强大的数据分析建模库
keras：人工神经网络

查看全部

0 采集收起来源：matplotlib概述
2020-03-15
慕少7317271

numpy.array的数据结构只能有一种数据类型
不像list可以存放多种数据类型

查看全部

0 采集收起来源：ndarray
2020-03-15
慕少7317271

keywords: 开源数据计算扩展
functions: ndarray 多维操作线性代数

查看全部

0 采集收起来源：初识numpy
2020-03-15
慕少7317271

python数据分析包
python数据分析重要的几个库：numpy、scipy、matplotlib、pandas、-scikit-learn、Keras。
开发工具：Anaconda

查看全部

0 采集收起来源：概述
2020-03-15

ssssylvia_zhu 03:13

#coding:utf-8
import numpy as np
from pylab import *
##插值
x=np.linspace(0,1,10)
y=np.sin(2*np.pi*x)
from scipy.interpolate import interp1d
li=interp1d(x,y,kind='cubic')
x_new=np.linspace(0,1,50)
y_new=li(x_new)
figure()
plot(x,y,'r')
plot(x_new,y_new,'k')
plt.show()
print(y_new)

查看全部

0 采集收起来源：scipy插值

2020-02-22

ssssylvia_zhu 13:08

###子图与多种图形绘制
fig=plt.figure()
ax=fig.add_subplot(3,3,1)
n=128
X=np.random.normal(0,1,n)#生成随机数
Y=np.random.normal(0,1,n)#生成随机数
T=np.arctan2(Y,X)#T用于上色
# plt.axes([0.025,0.025,0.95,0.95])#指定显示范围
ax.scatter(X,Y,s=75,c=T,alpha=.5)
plt.xlim(-1.5,1.5),plt.xticks([])#指定x轴范围
plt.ylim(-1.5,1.5),plt.yticks([])
plt.axis()
plt.title('scatter')
plt.xlabel('x')
plt.xlabel('y')
# plt.show()


###柱状图
ax=fig.add_subplot(332)
n=10#10个点
X=np.arange(n)#
Y1=(1-X/float(n))*np.random.uniform(0.5,1.0,n)#构造0到1之间的随机数
Y2=(1-X/float(n))*np.random.uniform(0.5,1.0,n)
ax.bar(X,+Y1,facecolor='#9999ff',edgecolor='white')#+Y1就是将Y1放在上，-Y2将Y2放在下，配置柱体颜色及边缘颜色
ax.bar(X,-Y2,facecolor='#ff9999',edgecolor='white')
for x,y in zip(X,Y1):#给Y1添加注释,ha是竖直位置，va是水平位置
    plt.text(x+0.4,y+0.05,'%.2f'% y,ha='center',va='bottom')
for x,y in zip(X,Y2):
    plt.text(x+0.4,-y-0.05,'%.2f'% y,ha='center',va='top')
plt.title('Bar')
# plt.show()


###饼图
ax=fig.add_subplot(333)
n=20
Z=np.ones(n)
Z[-1]*=2
ax.pie(Z,explode=Z*0.05,colors=['%f'%(i/float(n)) for i in range(n)],
        labels=['%.2f'%(i/float(n)) for i in range(n)])#explode表示每个扇形离中心的距离，color设置成每个扇形都有不同的颜色，这里是灰度图
plt.gca().set_aspect('equal')#设置为正圆而非椭圆，否则会随着画幅的大小发生形变
plt.xticks([])
plt.yticks([])
# plt.show()


###极坐标图
fig.add_subplot(334,polar=True)
n=20
theta=np.arange(0.0,2*np.pi,2*np.pi/n)
redii=10*np.random.rand(n)
plt.polar(theta,redii)
# plt.show()


###热力图
fig.add_subplot(335)
from matplotlib import cm
data=np.random.rand(3,3)
cmap=cm.Blues
map=plt.imshow(data,interpolation='nearest',cmap=cmap,aspect='auto',vmin=0,vmax=1)
# plt.show()


###3D图
from mpl_toolkits.mplot3d import Axes3D
ax=fig.add_subplot(336,projection='3d')
ax.scatter(1,1,3,s=100)
# plt.show()

###热区图
fig.add_subplot(313)
def f(x,y):
    return(1-x/2+x**5+y**3)*np.exp(-x**2-y**2)
n=255
x=np.linspace(-3,3,n)
y=np.linspace(-3,3,n)
X,Y=np.meshgrid(x,y)
plt.contourf(X,Y,f(X,Y),8,alpha=.75,cmap=plt.cm.hot)
plt.savefig('F:\python_codes\matplotlib_exampls.png')
plt.show()

查看全部

0 采集收起来源：子图与多种图形绘制

2020-02-22

ssssylvia_zhu 15:32

###基本线图绘制
import matplotlib.pyplot as plt
x=np.linspace(-np.pi,np.pi,256,endpoint=True)
c,s=np.cos(x),np.sin(x)
plt.figure(1)
plt.plot(x,c,color='blue',linewidth=1.0,linestyle='-',label='COS',alpha=0.5)
plt.plot(x,s,'r*',label='SIN')
plt.title=('COS&SIN')
ax=plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.spines['left'].set_position(('data',0))#左边线的位置移到数据为0的地方
ax.spines['bottom'].set_position(('data',0))#将下边线的位置移到数为0的地方
plt.legend(loc='upper left')
plt.grid()
# plt.axis([-1,1,-0.5,1])#指定显示范围，前两个数指定横轴范围，后两个数指定纵轴显示范围
plt.fill_between(x,np.abs(x)<0.5,c,c>0.5,color='green',alpha=0.25)#进行绿色填充
t=1
plt.plot([t,t],[0,np.cos(t)],'y',linewidth=3,linestyle='--')#加一条与y轴平行的虚竖线
plt.annotate('cos(1)',xy=(t,np.cos(1)),xycoords='data',xytext=(+10,+30),
             textcoords='offset points',arrowprops=dict(arrowstyle='-'))#给上面那条虚竖线加（相对位置）注释
plt.show()

查看全部

0 采集收起来源：基本线图绘制

2020-02-22

qq__6367

python数据分析：
numpy：数据结构基础
          scipy：强大的科学计算方法（矩阵分析，信号分析，数理分析....）
matplotlib：丰富的可视化套件
              pandas：基础数据分析套件
              scikit-learn：强大的数据分析建模库

查看全部

0 采集收起来源：概述
2020-02-22

慕移动6529002

#encoding=utf-8
'''
Keras
另一种机器学习模型人工神经网络
人工神经网络有两个比较著名的框架，一个是诞生于LISA lab的Theano，一个是谷歌开源的Tensorflow
Keras是二者的高层应用API，简化了构建人工神经网络的步骤，让人工神经网络更容易实现
Windows下的Tensorflow还不是很成熟，所以接下来的实例中采用基于Theano的Keras
官网：https://keras.io/

1、人工神经网络简单介绍Neural Net
人工神经网络的是一种机器学习运算模型
计算学习的运算模型本质上来说就是构造一种映射函数，人工神经网络也不例外
从数学上可以证明，人工神经网络可以映射成所有的非线性函数
神经网络由大量的节点（或者我们可以称之为神经元）直接相互连接构成的
通过对节点的输入进行加权求和，这里的节点的输入不一定是网络的输入，这里的权值就是模型所需要训练的参数，最后通过一个非线性函数，实现对模型的非线性处理
常用的非线性函数：sigmoid、thanh、ReLU、softplus
人工神经网络一般分为输入层（Input layer）、隐含层（Hidden layer）、输出层（Output layer）
层与层之间相互连接，一般情况下同一层以内是不进行连接的，当然也有特殊情况比如RNN节点对自己进行反馈连接
一般的数据分析中，隐含层只有一层就够了，如果隐含层有很多层的就是深度学习网络（其参数计算过程与浅层神经网络的训练过程不太一样）

2、keras实现人工神经网络Keras Installation & Neural Network with Keras
Installation：因为Anaconda不自带，所以需要额外安装
1、打开Anaconda命令行prompt
2、输入命令conda install mingw libpython
3、输入命令pip install keras（windows下会先安装theano再安装keras）
然后使用pycharm运行程序一次报错No module named tensorflow
这里是因为如果使用theano下的keras需要指定
只要运行过keras就会在电脑有c:\user\电脑名字\keras\keras.jason
备份之后修改这个文件，修改两处，修改为"image_dim_ordering":"th"和"backend":"theano"，保存关掉
再运行提示用的是Theano客户端（Using Theano backend）就成功了
'''
import numpy as np
from keras.models import Sequential#Sequential可以认为是人工神经网络各个层的容器
from keras.layers import Dense,Activation#Dense表示那些求和的层，Activation就是激活函数
from keras.optimizers import SGD#这里指的是随机梯度下降算法
def main():
    from sklearn.datasets import load_iris#继续使用上一节的iris数据集
    iris=load_iris()
    #由于神经网络用的是分类器，所以需要把序列进行标签化
    print(iris["target"])#输出的结果只有三种要么0要么1要么2
    from sklearn.preprocessing import LabelBinarizer#进行标签化
    print(LabelBinarizer().fit_transform(iris["target"]))
    #下一步分成训练集和测试集，并进行标签化处理
    train_data, test_data, train_target, test_target = train_test_split(iris.data, iris.target, test_size=0.2,random_state=1)
    labels_train=LabelBinarizer().fit_transform(train_target)
    labels_test = LabelBinarizer().fit_transform(test_target)
    #下一步构建神经网络层
    model=Sequential(
        [
            Dense(5,input_dim=4),#输出有5个，输入有4个，定义四个属性值
            Activation("relu"),#激活函数是relu
            Dense(3),#下一个输入就是上一层的输出，一共5个这里可以省略了，只定义3个它的输出，这里是012三个label
            Activation("sigmoid"),#激活函数选择sigmoid
        ]
    )
    #还可以使用另一种方式定义结构,先定义一个Sequential，然后一层一层往里加也是可以的
    # model=Sequential()
    # model.add(Dense(5,input=4))

    #下面定义一个随机梯度下降算法的优化器
    sgd=SGD(lr=0.01,decay=1e-6,momentum=0.9,nesterov=True)#lr因子，decay表示远离弧长，momentum实质因子
    model.compile(optimizer=sgd,loss="categorical_crossentropy")#指定优化器optimizer，隐身函数loss
    model.fit(train_data,labels_train,nb_epoch=200,batch_size=40)#用训练数据进行训练，注意这里用的是labels_train
    #nb_epoch表示训练多少轮，batch_size表示训练一批共多少个数据
    #接下来可以预测
    print(model.predict_classes(test_data))#输入测试集

    #还可以用上一节讲到的混淆矩阵和准确率

    #模型比较大的话，参数训练可能会消耗比较多的时间，可以把这些因子存下来，以便下次再用
    model.save_weight("./data/w")#保存到指定目录
    model.load_weight("./data/w")#下一次直接读取出来

if __name__=='__main__':
    main()

查看全部

0 采集收起来源：认识Keras

2020-02-19

首页上一页 8 9 10 11 12 13 14 下一页尾页

0/150

提交

取消

开始学习

课程须知: 需要对python语法和基本数据结构有所了解，对数据分析感兴趣！

老师告诉你能学到什么？: 1、数据分析的一般步骤 2、numpy简介与基本使用 3、matplotlib简介与基本使用 4、scipy简介与基本使用 5、pandas简介与基本使用 6、机器学习的一般概念 7、scikit-learn的简介、使用示例与学习方法 8、keras的简介与一般用法

微信扫码，参与3人拼团

热搜

最近搜索清空

Python数据分析-基础技术篇