为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
connection的创建不要放在循环里面,否则每次都要创建一次新的connection,浪费资源
python2.7 可以改写为如下形式
#coding=utf-8
import urllib
import urllib2
headers = {"Origin":"XXX","XXX":'XXX'}
values = {"Start": "XX",
"XX": "XX" }
data = urllib.urlencode(values)
req = urllib2.Request("http://www.thsrc.com.tw/tw/TimeTable/SearchResult",data,headers)
resp = urllib2.urlopen(req)
老师这一章值得留言点赞。
from bs4 import BeautifulSoup 报红 models(‘help’)里面 找不到 bs4
能不能递归爬取?
讲的东西都是过时的,URLopen这功能基本没高手用,至少也是用requests+BeautifulSoup。高手都是用框架的。
pip不是内部或外部命令是因为路径没有设置,可以自行添加。或者先打开cmd,然后找到x:\Python xx\Scripts路径下 pip.exe 直接拖到 cmd中,在出现的代码后 添加输入 install beautifulsoup4 即可安装。
果断安装Python3.5.1,不然各种报错啊
如果同时安装两个版本的,使用py -3 -m pip install beautifulsoup4 可以安装
车神的声音好好听
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
上面这个直接引入就行了,不用alt+enter快捷键。
老师:方便的话给发一个Postman嘛
C:\Users\Administrator>python3 -m pip install beautifulsoup4
'python3' 不是内部或外部命令,也不是可运行的程序
或批处理文件。
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消