为了账号安全,请及时绑定邮箱和手机立即绑定

请问什么是网络爬虫啊?是干什么的呢?

/ 猿问

请问什么是网络爬虫啊?是干什么的呢?

ITMISS 2019-02-09 11:07:21

请问什么是网络爬虫啊?是干什么的呢?


查看完整描述

2 回答

?
慕娘9325324

网络爬虫(Web crawler)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

网络爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。

扩展资料:

许多网站针对爬虫都设置了反爬虫机制。常见的有:

1、登陆限制:通过模拟登陆可以解决

2、用户代理检测:通过设置User-Agent header

3、Referer检测:通过设置Referer header

4、访问频率限制:如果是针对同一账号的频率限制,则可以使用多个账号轮流发请求;如果针对IP,可通过IP代理;还可以为相邻的两个请求设置合适的时间间隔来,减小请求频率,从而避免被服务端认定为爬虫。



查看完整回答
反对 回复 2019-03-02
?
蝴蝶不菲

网络爬虫(又被称为爬虫,网络机器人,在FOAF社区中间,更经常的称为网页追逐者)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站。

当人们在网络上(如google)搜索关键字时,其实就是比对数据库中的内容,找出与用户相符合的。网络爬虫程序的质量决定了搜索引擎的能力,网络爬虫程序高效,编程结构好。

工作原理:传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,再不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

扩展资料:

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的



查看完整回答
反对 回复 2019-03-02

添加回答

回复

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信