为了账号安全,请及时绑定邮箱和手机立即绑定

优化Python爬虫速度的方法有哪些?

/ 猿问

优化Python爬虫速度的方法有哪些?

呼啦一阵风 2018-09-05 19:15:56

优化Python爬虫速度的方法有哪些


查看完整描述

1 回答

?
FFIVE

1、数据抓取和数据处理分离,使用多线程或多进程将两个任务分开处理,避免互相影响
2、使用多线程在不被封锁的情况下尽量多的抓取网页,视数据量决定抓取的内容存放在内存中或硬盘中
3、使用流水线思维加多线程实现页面处理流水线化,将爬虫逻辑分为数据抓取、数据预处理,数据处理,数据保存几个步骤,步骤之间相互并行
4、有一个经常被忽视的地方需要注意,如果数据抓取速度过快,那么爬虫的瓶颈往往在cpu上,而cpu主要消耗在对html的解析上,必要时需要自己实现一个基于字符串查找的html解析器,可以消除这一瓶颈。

查看完整回答
反对 回复 2018-09-26

添加回答

回复

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信