为了账号安全,请及时绑定邮箱和手机立即绑定

爬虫如何抓取网站下拉动态加载的内容。

爬虫如何抓取网站下拉动态加载的内容。

长风秋雁 2018-12-06 18:47:41
写一个java的小爬虫程序,爬知乎的一些内容。 知乎的关注者列表,页面拉到底加载更多的一些联系人 ajax实现,我ajax并不是很懂。 现在我想获得这部分新加载的数据,如何获取, 很多答案就是分析http,找到这个ajax的请求地址这样泛泛地回答,等等等等 我想知道如何分析,如果讲很麻烦,希望可以提供一些详细的资料, 或者有一些类似的程序示例。谢谢
查看完整描述

6 回答

?
明月笑刀无情

TA贡献1828条经验 获得超4个赞

第二次提这个问题了,我问你知道 HTTP 不,你也不说。就你这个需求很言,理解 HTTP 协议,理解 WEB 程序原理,理解浏览器原理,足够你写出程序了。

查看完整回答
反对 回复 2018-12-16
?
德玛西亚99

TA贡献1770条经验 获得超3个赞

下载一个Fiddler2,安装后打开,再开启浏览器,你就会发现所有的请求都会显示在这个软件里了。点击右边部分的Inspectors标签,就可以看到提交和服务端响应的数据内容了。

查看完整回答
反对 回复 2018-12-16
?
扬帆大鱼

TA贡献1799条经验 获得超9个赞

说句实话,你的要求已经超出了普通网友能帮忙的程度了。

教一个学生一个月,学生还得够努力够智商,够呛能完成你目前的要求吧。

查看完整回答
反对 回复 2018-12-16
?
慕斯709654

TA贡献1840条经验 获得超5个赞

其实我也知道我差的很多,我也没想一口吃个胖子。

我现在有点像没头的苍蝇,感觉这里也要学哪里也要学,但是不知道学的这些东西对这个项目是否是必要的。

比如我是不是真的要学会写一个ajax样式的网站,还是只要理解其中的原理就行。

能不能告诉我,完成这个工作需要哪些技术?学的先后次序是什么?

麻烦了。

查看完整回答
反对 回复 2018-12-16
?
临摹微笑

TA贡献1982条经验 获得超2个赞

用程序把该网页内容下载下来转成字符串,再用正则表达式匹配对应的联系人和邮箱。

查看完整回答
反对 回复 2018-12-16
?
撒科打诨

TA贡献1934条经验 获得超2个赞

先学会抓包分析http(s)请求和响应,然后定位到ajax异步请求动态加载部分,分析请求头、请求参数等,你再构造报文模拟ajax请求或者直接后台http请求拿到响应数据。

查看完整回答
反对 回复 2018-12-16
  • 6 回答
  • 0 关注
  • 1042 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号