为了账号安全,请及时绑定邮箱和手机立即绑定

爬虫爬取频率过高的问题

爬虫爬取频率过高的问题

元芳怎么了 2018-10-05 19:15:56
想写一个抓取商城商品详情页的程序,开启多个线程并行抓取,但是这样会对被抓取的网站造成巨大压力,导致IP被封或被请求重定向.请问如何提高抓取效率并避免抓取失败?搜索引擎如lucene等也会造成对网站的频繁访问,它是怎么解决这个问题的?大家有啥推荐的技术?谢谢!
查看完整描述

2 回答

?
慕斯709654

TA贡献1840条经验 获得超5个赞

设置爬虫的时间间隔,可以每隔多长时间爬一次。

查看完整回答
反对 回复 2018-10-14
?
largeQ

TA贡献2039条经验 获得超7个赞

选择爬虫方案最终取决于需要爬去的数据量,时间成本和金钱成本。

最快速的方案 - 使用HTTP代理 
使用HTTP代理 + 异步IO,每秒可以处理100左右的HTTP请求(根据机器配置和网络而定)。但是免费的HTTP代理一是需要自己来抓,二是并不稳定。如果使用付费的HTTP代理,这个需要钱了。
比使用HTTP代理更简单的方案 - 多线程
每次开2-4个线程来访问页面,也就是同时只能处理2-4个HTTP请求,然后一直跑下去,如果需要爬去的数据量不多,这个是最简单的解决方案。比如处理一次HTTP请求需要200ms,每次处理4个请求,一秒可以抓取20个页面,一天可以抓取 20 * 60 * 60 * 24 = 1728000 。
最合适的方案 - 分布式
使用多线程 + 分布式,比如一台机器抓取一天可以抓取172w数据,两台就是344w数据。
最终解决方案 - 分布式 + HTTP代理
根据之前爬去拉勾网的时实践,同一个IP同时发送4个HTTP请求是不会被ban的,所以一个IP可以保证4个HTTP并发量,如果有10个HTTP代理,每秒就可以获取200个页面,一天可以爬去200 * 60 * 60 * 24 = 17280000个页面。最好是分布式不使用代理,因为每加一台机器,就相当于多了一个IP。

具体的一个IP的并发量需要自己测试,不过最好一个IP同时只处理一个HTTP连接。

其它的注意事项

  1. 设置Uuser-Agent

  2. 带上cookie,以抓取天猫商城为例,如果不带上cookie,天猫每次需要重定向3次才会跳转到目标页面


查看完整回答
反对 回复 2018-10-14
  • 2 回答
  • 0 关注
  • 1536 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信