为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
台湾高铁是反爬虫了吗,并没有数据……
打不开python官网
unicode是字符集不是实现方式,utf-8是unicode的实现方式,python3中的str类型默认是unicode字符集,这个str(unicode)是python自定义的一种实现unicode编码的对象,不能用于io操作,因为别的硬盘,或者网络不能识别python自定义的编码对象,虽然大部分别的软件都有这种自unicode定义数据。所以在进行io操作的时候必须把编码变成能识别的编码 utf-8

最新回答 / ccc3ccc
是的 128个ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)
python3默认就是utf-8编码

已采纳回答 / 秋名山车神
你把插入数据库的代码注释掉,然后只是打印名字和网址,看看需要多久。

讲师回答 / 秋名山车神
17行修改成 soup = bs(html_doc) 试一下还会报错吗

已采纳回答 / 秋名山车神
这个问题已经确定是0.7.7的一个BUG了,作者已经修复了这个漏洞,发布了0.7.9的版本,升级为0.7.9就可以了。
NameError: name 'LAParams' is not defined
课程跳跃有点快,必须要有些基础才能跟得上老师的节奏。

已采纳回答 / 秋名山车神
最后一行 print(url["herf"])里面的 herf 改成 href 试试看
google靠一个python爬虫发家致富。。。。。。。。。。。
这个有点扯,虽然说的对,但是大型网站一般有限制让一般的新手爬不了
unicode是字符集,Utf-8是编码方式,你解释的unicode实际应该是utf-16,这种方式是通用两个字节,所以浪费空间,utf-8可以节约空间,但是浪费时间,你这个解释似乎不是很准确。。
你讲错了吧,decode("UTF-8")是把你获取到的网页代码转成UNICODE编码,beautifulsoup内部有自动转换功能,这一步也不是必须的,但是最好明确的转换

已采纳回答 / 秋名山车神
在python命令行的交互环境,输入 import pymysql.cursors 会报错吗?<...图片...>
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消