为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰

最新回答 / 慕移动9181930
可以啊,我用谷歌试过,没有问题。你没有写其他浏览器的兼容代码,所以有问题能实现就行,不过你和题目要求还是有点差别哦~你可以在进行优化一下,没有点击的时候标签下有一条线的,你可以把这个优化掉
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams

我只是想说这么复杂的步骤我已经放弃治疗了。。。直接写成函数,以后调用吧
所以,学习了很多来把自己伪装成不同的浏览器和不同的用户 -v0
日文编码的例子是雅蠛蝶Hhhhhhhhh欢乐一点嘛。
老师,维基百科是全球性的网站,全天二十四小时不休息,所以不应该在中国夜深人静的时候,而应该在当地时间12点,人口最少的地区活跃时进行大规模爬取。=v=大规模爬取必然引起服务器负载,没事儿捐个几刀来弥补一下内心的负罪感吧
不依赖外部扩展应该是优点才对
@小胖纸

这个原因是因为,国内有些网站涉及到侵权的问题,爬虫要考虑到这些方面的问题,毕竟大家这么多人,弄得好像故意去消耗某些公司的服务器资源一样。
seU
故意把慕课网拉出来,叫我们不要爬慕课网,笑死我了,哈哈哈哈
老师TvT,大陆的同学表示什么谷歌啊维基百科啊,统统用不了啊,能不能接地气一点。

最新回答 / 小胖纸
你用的是PyCharm吧,这个说明运行正常,你把代码贴出来看看是什么个情况

最新回答 / 楷格的爸爸
我的不可以,只能手动加上一个id字段,写入循环i=i+1,但写入时出现问题了,求教大家:1如何使用自动递增字段的2写入时是不是直接忽略这个字段3自增字段必须设置成主键吗?
老师例子在哪

已采纳回答 / 秋名山车神
pdf2txt.py 前面 应该加一个 python 的关键字吧 不然py文件是不能直接运行的
支持最新python3.5的lxml


http://www.lfd.uci.edu/~gohlke/pythonlibs/
最后一句话好感人

讲师回答 / 秋名山车神
比如说你想收集所有上市公司历年来资产负债,资产增长,股份变革等等这些情况,你不可能通过人工的方法来查找,因为单单深沪都有几千家公司,只能依靠程序来完成,但是这些信息大部分都是以PDF文件保存的,如果不读取PDF文件还有什么好的方法来完成呢?而且大部分的文件都是以PDF保存的,如果你想从这些文件里面查找信息,一两个文件可能还能人工去查找统计,如果是一百个,一万个文件,依靠人工不知道要到什么时候才能完成,而且还可能会统计错误。
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消