为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
C:\Users\Administrator>python3 -m pip install beautifulsoup4
'python3' 不是内部或外部命令,也不是可运行的程序
或批处理文件。
怎么安装pyCode不讲一下吗?之前用的Python.6的Eclipse+pyDev怎么同时使用python2 he python3?谢谢
我的报错UnicodeEncodeError: 'gbk' codec can't encode character u'\xa9' in position 89190: illegal multibyte sequence
保存文件就没问题了
from urllib import request
resp = request.urlopen('http://www.baidu.com')
str = resp.read().decode('utf-8')
f = open('2.html','w',encoding='utf-8')
f.write(str)
f.close()
在6分40秒左右,在获取title之前,在最后一行之前加上了#,这样就可以打印了,一个只有HTML基础的小白。
Python2.x版本和python3.x版本可以同时安装,并不冲突
python2.7版本
在PDFMiner API的两个例子连接在一起,并在基础上修改这些就好
修改:document = PDFDocument(parser, password='')
添加:老师写的判断代码 for out in layout:
if hasattr(out,'get_text'):
print out.get_text()
pdf有密码,报错:WARNING:root:GBK-EUC-H ,该怎么解决?
不要在高峰期使用,不要给对方服务器造成压力。
不错,不错。
同问@ Bobzhangxiaotao
便利如幕课网这样的大网站
粘贴就粘贴 为什么说是黏贴?
用 urllib2
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消