为了账号安全,请及时绑定邮箱和手机立即绑定
慕课专栏

目录

索引目录

Python 数据分析通关攻略

原价 ¥ 58.00

立即订阅
02 数据分析的环境不会搭?看这里准没错!
更新时间:2019-12-17 08:12:59
没有智慧的头脑,就象没有腊烛的灯笼。——列夫·托尔斯泰

自学一门编程语言着实不易。从我自己的经历看,你需要翻越好几个障碍,从心态,到体力,再到思维,最终才能成为一名优秀的程序员。所以说掌握一门语言,需要你用心去感悟,去认真体会你和“她”的那一丝默契。

但是遗憾的是,太多的朋友们,并不是倒在了中途,而是他们并没有开始,是的,他们连Python公主的纤纤玉手都没有摸到。

Python应该下载哪个版本?Python环境如何配置?推荐几款最好用的Python IDE等等。我们的挑战在于选择太多,在丰收的农场门口,我们望着满眼的西瓜和葡萄,踌躇满志却不敢前进。

如果你现在还没有配置好Python环境,那么恭喜你,跟着本文走,你将能够收获基于Python3.7搭建的编程平台,以及以Jupyter为主要工具的编程环境,本文还将带你安装常用的数据分析工具以及可视化工具,一站式购齐,无后顾之忧。

如果你已经安装了Python3.7的环境,或者anaconda环境,你也可以顺着本文的思路往下走,工具不是重点,配置环境的能力才是。

但是如果你的Python环境来历不明(不明论坛下载),我强烈建议你卸载后重新安装官网版本(Python的卸载方式同普通软件,在控制面板中卸载即可)。毕竟"磨刀不误砍柴工",有的版本残缺不全,谁也无法预测你会出现什么bug。

本文以windows 10 X64系统为例,演示本地Python数据分析环境的搭建过程。

安装Python环境

  • Python软件下载

作为21世纪的大好青年,从来都是要玩最正宗的,盗版?!那是上一代人玩剩下的。特别是在正版还免费的情况下。推荐去Python官网https://www.python.org/下载。部分朋友可能加载会比较慢,稍安勿躁,除非网络问题,网站都是能够访问的。

图片描述

进入官网后,你可以直接按照上图的提示,选择Windows标签,进入Windows平台的Python版本详单页面(Releases Page),建议选择3.7或以上的版本。Python2.7将在2020年停止所有更新,就像曾经辉煌的Windows XP一样,最终慢慢成为历史的尘埃,所以本专栏不推荐安装Python2.7

在选择Python版本要注意根据自己PC的版本一致,如果自己的版本是64位,建议选择x86-64版本下载,否则直接选择普通版本。切记电脑位数和Python版本保持一致,否则以后流的泪都是当初挖的坑啊。

图片描述

对于使用mac OS的朋友,请选择mac OS X标签,进行下载,步骤基本一致。

  • Python软件安装

Python的安装过程非常人性化,你只要双击安装程序,设置好安装路径,然后不断点击下一步,直至完成安装。

图片描述

上图add python3.7 to Path,是指安装过程中程序默认把安装路径添加到系统环境变量中,此项务必打勾!

至此我们已经初步完成了Python3.7的安装。在cmd命令行中输入python,可以直接进入python环境中:

C:\Users\Administrator>python
Python 3.7.4 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.

继续输入我们的第一行Python语句,开启我们的数据分析之旅吧:

>> print("Life is short, I do data analysis in python!")
"Life is short, I do data analysis in python!"

如果把Python比作公主的话,那么怎么也得配个丫鬟才对,是吧?我们常说Python广泛应用与数据分析、爬虫、网络编程、人工智能、运维等领域,其实是因为基于Python有非常多的第三方库,这些库极大地丰富了Python的生态,使得Python近乎无所不能。那我们该怎么安装这些第三方库呢?

没错,PIP工具应该说是这块的小能手了。PIP直观上理解,就是为Python量身定做的管理第三方库的小工具,扮演了丫鬟的角色。让我们先来撩一下PIP,在cmd窗口中输入命令查看PIP的版本和安装路径:

C:\Users\Administrator>pip --version
pip 19.1 from d:\users\lemeng\appdata\local\programs\python\python37\lib\site-packages\pip-19.1-py3.7.4.egg\pip (python 3.7)

如果系统提示PIP不是最新版本,请继续执行如下命令:

C:\Users\Administrator>python -m pip install --upgrade pip

PIP是不是就这么简单呢?我们稍后揭晓。

Jupyter Notebook,最适合做数据分析的编程工具

准确来讲,Jupyter Notebook不仅仅适合做数据分析,而且它非常适合新入门的朋友练习Python

Jupyter Notebook是一种以“问答式”为重要特征的Python编辑器,就像排版精良的笔记,你的程序、执行结果,井然有序。

本专栏重点介绍在Python数据分析过程中的Jupyter Notebook的使用。在实际案例中,你输入一句,它便返回程序执行的结果。并且执行后程序的内存会被锁定,直到程序关闭,变量才会被销毁、内存被释放。这种特征,在数据分析领域尤为重要。在数据分析的过程中,一切套路都是围绕着数据本身的特点来的。特别是对于中大型的数据表格,只有熟悉了数据的特点,才能对数据进行下一步的分析。这也正是数据编程与网络编程最大的差别。

我们先安装Jupyter Notebook,然后通过一个实例来感受它的便捷。

我们推荐通过PIP工具进行一键式安装,在cmd窗口输入如下命令:

C:\Users\Administrator>pip install jupyter

提示安装成功后,推荐设置一下我们常用的Python学习路径,这样新建和保存文件均会默认放置到该路径下。在cmd窗口中继续输入:

C:\Users\Administrator>jupyter notebook --generate-config
Writing default config to C:\Users\Administrator\.jupyter\jupyter_notebook_config.py

编辑上一步提示的jupyter_notebool_config.py文件,找到c.Notebook.notebok_dir,放开前面的注释,并按照下图修改完成(路径根据自己的实际情况填写,注意避免放置中文路径,给自己挖坑),保存并关闭。

图片描述

到此为止,Python环境就完成配置了,下面我们就来撩一下吧。

cmd窗口中输入jupyter notebook,启动环境:

C:\Users\Administrator>jupyter notebook

通过New菜单,新建一个Python 3的程序后,在新的页面继续输入:

for i in range(10):
    print(i, end=",")

jupyter notebook界面及效果如下:

图片描述

Jupyter的常用工具栏上,有保存、剪切、复制、粘贴、运行、停止等按钮,鼠标移动到按钮上会有提示,总体来说,还是很人性化的,相信上手应该没有难度的。

这里请朋友们注意了,在本专栏的后续章节中,除特殊说明外,Python程序的演示都是在Jupyter Notebook中进行的。

数据分析三大神器

  • Numpy,一款用于科学计算时的基础模块

简单来说,Numpy提供了一个N维数组容器,基于Numpy,你可以非常方便地进行数组的变换与计算,比Python自带的嵌套列表的效率高多了,不仅仅是运行效率,开发效率也是极高。并且后续的数据分析工具很多都是基于Numpy开发而来,也就是说想玩转数据分析,必须要安装并且了解Numpy。

推荐用PIP安装Numpy,正常有2种方法:在线安装和离线安装。如果网络条件还可以,可以在cmd窗口中输入:

C:\Users\Administrator>pip install numpy

PIP 会根据Python的版本,自动搜索匹配的Numpy版本,进行安装。如果网络不佳的朋友,因为国外的站点链接并不稳定,很可能会出现下载失败的情况,这里给大家推荐阿里云镜像站点http://mirrors.aliyun.com/pypi/simple/。朋友们可以进入阿里云镜像点,下载对应的包到本地,比如c:/盘,进行本地安装。安装命令中需要带上文件的本地路径,如下:

C:\Users\Administrator>pip install c:/numpy-1.17.2-cp37-cp37m-win_amd64.whl

这里告诉大家如何去寻找适合自己的版本,cp37表示适用于Python3.7win_amd64表示适用于windows 64bit平台。whl格式的文件本质上是一个压缩包,里面包含了py文件,以及经过编译的pyd文件,方便安装。

本专栏后续仍会有部分库需要用PIP去安装,朋友们都可以尝试用阿里云镜像站点进行离线安装,套路都一样。

在线安装本质上也是去站点搜寻合适的whl文件进行安装。

安装完成后,我们尝试一下导包操作,如果导包成功,那说明Numpy的安装一切顺利。在Jupyter Notebook输入如下并执行:

# numpy导包操作
import numpy as np
  • Pandas,一款为解决数据分析而生的工具

直白的说,Pandas其实就是一个表格容器,并且提供了很多很秀的骚操作,能够满足日常各种“外挂”需求。

Excel大家都用吧,Excel也有很多骚操作,比如筛选、函数、排序、透视、绘图、复制等等。但是大数据时代,Excel有很多局限性,自动化只能靠VBA,但是自动化程度有限;单Excel表格容量有限,超过10万行就运行困难,运行效率不行;无法与其他工具兼容,统计函数有限,无法定制…

对于Pandas来说,这些都不是问题。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。依托Python语法,可以方便地进行函数式编程和面向对象的编程,可以方便地和各类数据库进行对接,可以根据数据集的特点定制各类函数,并且Pandas还是入门数据挖掘与人工智能的基础。

Pandas的安装和Numpy一样。但是需要注意的是,Pandas是基于Numpy封装的,所以安装顺序Numpy在前,Pandas在后,切勿调换顺序。

C:\Users\Administrator>pip install pandas

如果网速不佳,推荐阿里云离线安装,过程请参考Numpy。

安装完成后,我们尝试一下导包操作,如果导包成功,那说明目前一切顺利。

# pandas导包操作
import pandas as pd
  • Matplotlib,入门必学的可视化工具

matplotlib 是基于Numpy开发的绘图工具,可以非常方便地绘制出版质量级别的图形,效果甩Excel不是一点半点。开发者可以仅需要几行代码,便可以生成绘图。一般可绘制折线图、散点图、柱状图、饼图、直方图、子图等等。

安装过程也非常简单,跟Numpy一样,命令行中输入:

C:\Users\Administrator>pip install matplotlib 

如果网速不佳,推荐阿里云离线安装,过程请参考Numpy。

安装完成后,我们看一下demo,看看Jupyter和可视化工具一起,能够擦出什么样的火花呢?我们输入如下程序:

# 这是Python的一个魔法函数,在命令行下起作用,方便图形在Jupyter Notebook中显示
%matplotlib inline
# 导包,约定俗成,固定格式
import matplotlib.pyplot as plt
import numpy as np

# 生成0-2π区间的含100项的等差数列
x = np.linspace(0,2*np.pi,100)
# 求x值对应的sin,赋值给y
y = np.sin(x)
# 绘图
plt.plot(x,y)

图片描述

Matplotlib绘图的最大特点就是依托于Python,对数据进行清洗、与数据的交互、图形界面的交互都非常方便,一站式搞定。后续的课程,我将为大家详细介绍,如何用这套工具,做一些炫酷的事情。

Pyecharts,一款国民女神级的可视化工具

在这之前,我们先来聊一下EchartsEcharts是一个使用 JavaScript 实现的开源可视化库,自问世以来迅速得到了朋友们的好评,效果炫酷、使用高效、可交互、可高度定制等等,好评不一而足。

对于学习Python的朋友们来说,唯一比较头疼的,是需要具备一定的JavaScript知识,特别是对于新入门的朋友,这一点似乎有一点点不太友好。

但是这一点对于学习完本专栏的朋友们来说,完全不是问题。这里我们推荐一款好用的工具Pyecharts,语法完全兼容Python,效果全面向Echarts看齐。

多说不练假把式,我们来看看如何安装Pyechartscmd命令行中利用PIP执行安装任务:

C:\Users\Administrator>pip install pyecharts -U

这里要注意一下,Pyecharts一共分为2个版本,Version0.5xVersion1.x,两个版本并不兼容。v1.x的语法全面拥抱TypeHint,表达方式更加 OOP(Object Oriented Programming),写法更灵活。v0.5x则还是原生的写法,跟脚本语言的写法非常接近。

本着与时俱进的思想——先进即好用,我们推荐朋友们使用最新的版本。事实上,v0.5x经过我的多方面测试,跟notebook的兼容性存在一些问题,v1.x的效果则更加稳定一些。为了降低版本因素可能对朋友们造成的困扰,本专栏的案例基于Version1.5.1编写。

完成安装后,我们先来看看效果吧,输入如下Python程序:

# 导入绘图工具
from pyecharts import options as opts
from pyecharts.charts import Bar

attr = ["衬衫", "羊毛衫", "雪纺衫", "裤子" , "高跟鞋" , "袜子"]
v1 = [5, 20, 36, 10, 75, 90]
v2 = [10, 25, 8, 60, 20, 80]
bar = (
        Bar()
        .add_xaxis(attr)
        .add_yaxis("商家A", v1)
        .add_yaxis("商家B", v2)
        .set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"))
    )
# 在notebook中输出
bar.render_notebook()

图片描述

总结

到这里,整个基于Python的数据分析环境就搭建完成了。总的来说,搭建这套环境的意义就在于:

  • 提供了一套数据清洗的平台,你可以方便地观察数据的规律,并完成对应指标的统计、分析;
  • 提供了一个可视化的平台。从传统的绘图方式,向自动化、批量化、可交互式的可视化方式转变;
  • 拓展了数据分析的来源。Python的能力也将在这个方面得到充分的展现。用了这套平台,你的数据来源不再局限于Excel表格。随着技能点的逐步点亮,你可以自由地从各类数据库、网上在线表格、各类文本文件等获取。
  • 技能将更加全面化。你能够操作的数据也不仅仅局限于数字,文本、图片等都将成为你的操作对象;操作水平也更加精细化,并且效率极大提升;数据量也从几千的维度,迅速提升到百万级别。至于更大的数据量,则依赖更好的硬件性能和一定的建模能力,但是可以肯定的是,Python数据分析这套技能不会过时;
  • 最为重要的是,这里提供了一个技能提升和职场晋升的阶梯。利用这套平台,你可以专注于成为一名数据分析师,也可以转型成为一名大数据工程师,可以往上晋升成为一名数据挖掘工程师、甚至是数据科学家、算法专家。

所以朋友们还等什么,赶紧加入学习吧。

}
立即订阅 ¥ 58.00

你正在阅读课程试读内容,订阅后解锁课程全部内容

千学不如一看,千看不如一练

手机
阅读

扫一扫 手机阅读

Python 数据分析通关攻略
立即订阅 ¥ 58.00

举报

0/150
提交
取消