为了账号安全,请及时绑定邮箱和手机立即绑定

python爬虫程序的原理是什么?PHP不能写爬虫吗?

python爬虫程序的原理是什么?PHP不能写爬虫吗?

红糖糍粑 2018-10-02 17:22:09
python爬虫程序的原理是什么?PHP不能写爬虫吗?
查看完整描述

2 回答

?
慕容708150

TA贡献1831条经验 获得超4个赞

爬虫的原理是从一个起始种子链接开始,发http请求这个链接,得到该链接中的内容,然后大多使用正则匹配出页面里面的有效链接,然后将这些链接保存到待访问队列中,等待爬取线程取这个待访队列,一旦链接访问过了,为了有效的减少不必要的网络请求,我们应该把访问过的链接放到一个已访问map中,已防止重复抓取及死循环。我以上提到的过程可能是一个比较简单的爬虫实现,复杂的可能不会这么简单,但这里面有几个概念,一个是发http请求,一个是正则匹配你感兴趣的链接,一个是多线程,另外还有两个队列,理论上,任何能实现这么些概念的编程语言去写爬虫都是可以的,期间取舍还是看自己对熟练成都。

查看完整回答
反对 回复 2018-10-14
  • 2 回答
  • 0 关注
  • 1185 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信