为了账号安全,请及时绑定邮箱和手机立即绑定

node.js 爬虫 异步延时问题

node.js 爬虫 异步延时问题

湖上湖 2019-02-16 23:19:36
比方说有1万个关键词['query1', 'query2' ... ... ]我要用这些关键词爬虫抓网上的数据,有两个接口,一个是获取当前query所有的页数,一个是获取当前query当前页的数据。首先请求第一个接口拿到当前query有多少页,然后再获取每一次的数据每次请求必须等上一个请求完成,防止网站崩溃我用node写的,请问有解决的办法吗?
查看完整描述

1 回答

?
拉莫斯之舞

TA贡献1820条经验 获得超10个赞

这里面涉及到的技术点如下:

  1. 发出 HTTP 请求,用 http 模块的 get 或者 request 函数;

  2. 分析请求到的页面数据,假设页面是 html 页面,可以用 cheerio 来解析页面的 DOM 结构,获取页面上的数据;

  3. 异步流程控制,因为 node.js 是单线程异步执行的,所以你如果两个任务需要串行执行,需要进行流程控制;

  4. 流程控制可以自己实现,也可以用第三方库来实现;

能想到的大概就是这些,欢迎大家补充。


查看完整回答
反对 回复 2019-02-17
  • 1 回答
  • 0 关注
  • 437 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号