为了账号安全,请及时绑定邮箱和手机立即绑定

关于抓取结果的问题

为什么代码运行完跟理想的结果不一样呢?比如说百度百科里面python词条页面里面的第一个关键词是计算机程序设计语言,那么爬虫后的结果在python标题和简介后面应该跟的是计算机程序设计语言的标题和简介啊,然后每次爬取完的结果python后都是百度百科关于API词条的标题和简介,而且之后的内容在网页上有些都找不到,这到底是怎么回事啊?你们再仔细看看视频前后,老师爬取的结果也不是理想的结果啊!

正在回答

2 回答

但问题是在网页上都几乎找不到爬到的数据,如果查看源代码的话倒是能找到爬到的url,但是这个url在网页中打开的不是网页上关键字对应的页面,而是另一个页面,比如说原网页上有个带超链接的关键字“计算机程序设计语言”,它在源代码中对应了一个url,爬取下来了这个url,在浏览器上打开后是关于api的百科页面,这是怎么回事呢?

0 回复 有任何疑惑可以回复我~

因为url是用set存储的,set不保证存储顺序,如果你需要按网页上显示的顺序依次趴下来,可以使用队列这种数据结构替换set

0 回复 有任何疑惑可以回复我~
#1

perilwhistle 提问者

但问题是在网页上都几乎找不到爬到的数据,如果查看源代码的话倒是能找到爬到的url,但是这个url在网页中打开的不是网页上关键字对应的页面,而是另一个页面,比如说原网页上有个带超链接的关键字“计算机程序设计语言”,它在源代码中对应了一个url,爬取下来了这个url,在浏览器上打开后是关于api的百科页面,这是怎么回事呢?
2017-03-02 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227586    人
  • 解答问题       1288    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

关于抓取结果的问题

我要回答 关注问题
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号