为了账号安全,请及时绑定邮箱和手机立即绑定

返回数据是html,该怎么爬取?

/ 猿问

返回数据是html,该怎么爬取?

需要爬一个篇文章:https://m.baidu.com/sf?pd=realtime_article&openapi=1&dispName=iphone&from_sf=1&resource_id=4584&word=%E5%90%B4%E6%81%A9%E8%BE%BE&title=%E7%BD%91%E6%98%93&keysign=http%3A%2F%2F3g.163.com%2Fdigi%2Farticle%2FC7TOQ1AD0016192R.html&source=realtime_tab&fks=649878&lid=10778109101302001596&referlid=10778109101302001596&ms=1

返回的乱码里面也没有文章内容。只有少数几个认得的汉字。

https://img1.mukewang.com/5b0933d50001be2012490720.jpg

用下面的代码去请求其它网页可以找到数据,但是去请求网易文章链接的时候的时候就是乱码一样的了。

https://img.mukewang.com/5b0933dd0001991011190541.jpg

还有百度百家号上面看到了文章想要取下来也是像上面一样的乱码,而且点击连接进去不是文章那一页

看了一下返回的是一个html,和以前会爬的json不一样,请问该怎么爬这种网页?

https://img2.mukewang.com/5b0937690001ae6d07510335.jpg

查看完整描述

3 回答

已采纳
?
冰山点水

用lxml的xpath

查看完整回答
反对 回复 2018-05-28
?
Keyro

python语言可以使用beautiful soup 或者pyquery来解析html文档

查看完整回答
反对 回复 2018-06-01
?
元气满满GO

自己解析,可以试试jsonp库

查看完整回答
反对 回复 2018-05-27

添加回答

回复

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信