为了账号安全,请及时绑定邮箱和手机立即绑定

php 实现网络爬虫

/ 猿问

php 实现网络爬虫

当年话下 2018-12-04 05:04:14

php 实现网络爬虫


查看完整描述

1 回答

?
繁星coding
  1. pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms,开200个进程,可以实现每秒400个页面的抓取。

  2. curl实现页面抓取,设置cookie可以实现模拟登录

  3. simple_html_dom 实现页面的解析和DOM处理

  4. 如果想要模拟浏览器,可以使用casperJS。用swoole扩展封装一个服务接口给PHP层调用


查看完整回答
反对 回复 2018-12-09

添加回答

回复

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信