为了账号安全,请及时绑定邮箱和手机立即绑定

关于微博的爬虫问题!!?

关于微博的爬虫问题!!?

白板的微信 2018-10-05 18:56:44
不知道各位爬虫过微博的页面么?今天我试了试,获取到的html内容居然不是我想要的!!全是js内容,我猜测微博是实用js文件加载内容的。那么问题来了,我要怎么获取js加载后的页面内容呢?就是body里面的标签内容。我使用的是nodejs,superangert、cheerio、express。望大神赐教,小弟感恩不尽。
查看完整描述

2 回答

?
潇潇雨雨

TA贡献1833条经验 获得超4个赞

1)用正常的URL请求取访问,获取返回的内容存在本地发文件后,check下和最终的HTML文件内容有那些区别
2)你用下chrome的开发工具或firebug等工具查看页面的网络请求,查找其中的有关的http请求,特别是那些JSONP的请求
3)有些内容是要LAZY加载的,还需要你进一步观察~~~~
4)如果你对实时性要求不高的,可以考虑用phantomJS或electron等框架,让HTML渲染引擎完全渲染后,在抓取内容

总之,现在页面越来越难抓了~~~,
另外爬虫,要用到express么?superangert用来做代理?


查看完整回答
反对 回复 2018-10-14
  • 2 回答
  • 0 关注
  • 804 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信