basil_2020 · 更新于 2020-04-16

14 开发小案例-综合运用

16 数据可视化

爬虫和反爬虫

有的时候，当我们的爬虫程序完成了，并且在本地测试也没有问题，爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候，我们很有可能是遇到了网站的反爬虫拦截。

我们知道，网站一方面想要爬虫爬取网站，比如让搜索引擎爬虫去爬取网站的内容，来增加网站的搜索排名。另一方面，由于网站的服务器资源有限，过多的非真实的用户对网站的大量访问，会增加运营成本和服务器负担。

因此，有些网站会设置一些反爬虫的措施。我们只有认识了主要的反爬虫措施，才能识别反爬虫措施，从而进行反反爬虫。当然，从道德和法律的角度来讲，开发者应该把爬虫控制在合理合法的用途上，切勿非法地使用爬虫。如果，需要将爬取的内容用作商业用途的时候，需要额外关注相应网站对数据的声明。

1. 反爬虫常见方式：

请求头识别

这是一种最基本的反爬虫方式，网站运营者通过验证爬虫的请求头的 User-agent,accep-enconding 等信息来验证请求的发出宿主是不是真实的用户常用浏览器或者一些特定的请求头信息。

动态加载

通过 Ajax，或者javascript 来动态获取和加载数据，加大爬虫直接获取数据的难度。

验证码

这个相信大多数读者非常熟悉了吧，当我们输错多次密码的时候，很多平台都会弹出各种二维码让我们识别，或者抢火车票的时候，会出现各种复杂的验证码，验证码是反爬虫措施中，运用最广，同时也是最有效直接的方式来阻止爬虫的措施之一。

限制IP

在识别到某些异常的访问的时候，网站运营者会设置一个黑名单，把一些判定为爬虫的IP进行限制或者封杀。

账号限制

有些网站，没有游客模式，只有通过注册后才可以登录看到内容，这个就是典型的使用账号限制网站，一般可以用在网站用户量不多，数据安全要求严格的网站中。

2. 反反爬虫策略：

更改 UserAgent

我们可以在请求头中替换我们的请求媒介，让网站误认为是我们是通过移动端的访问，运行下面的代码后，当我们打开 hupu.html,我们会发现返回的是移动端的虎扑的页面而不是网页端的。

import requests
from bs4 import BeautifulSoup

header_data = {
'User-Agent': 'Mozilla/5.0 (Linux; U; Android 4.4.2; en-us; SCH-I535 Build/KOT49H) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30'}
re = requests.get('https://www.hupu.com/', headers=header_data)
bs = BeautifulSoup(re.content)
with open('hupu.html', 'wb') as f:
    f.write(bs.prettify(encoding='utf8'))

减少爬取频率，设置间隔时间

比如，我们可以设置一个随机的间隔时间，来模拟用户的行为，减少访问的次数和频率。
我们可以在我们爬虫的程序中，加入如下的代码，让爬虫休息3秒左右，再进行爬取，可以有效地避开网站的对爬虫的检测和识别。

import time
import random

sleep_time = random.randint(0.,2) + random.random()
time.sleep(sleep_time)

运用代理机制

代理就是通过访问第三方的机器，然后通过第三方机器的 IP 进行访问，来隐藏自己的真实IP地址。

import requests

link = "http://www.baidu.com/"
proxies = {'http':'XXXXXXXXXXX'} //代理地址，可以自己上网查找，这里就不做推荐了
response = requests.get(link, proxies=proxies)

由于第三方代理良莠不齐，而且不稳定，经常出现断线的情况，爬取速度也会慢许多，如果对爬虫质量有严格要求的话，不建议使用此种方法进行爬取。

变换IP进行爬取

可以通过动态的 IP 拨号服务器来变换 IP，也可以通过 Tor 代理服务器来变换 IP。

小结

反反爬虫的策略，一直是在变换的，我们应该具体问题具体分析，通过不断的试错来完善我们的爬虫爬取，千万不要以为，爬虫程序在本机调试之后，没有问题，就可以高枕无忧了。线上的问题，总是千变万化，我们需要根据我们的具体反爬措施，来针对的写一些反反爬虫的代码，这样才能保证线上环境的万无一失。

14 开发小案例-综合运用

16 数据可视化

我要提出意见反馈

热搜

最近搜索 清空

我的购物车

已加入门课程

购物车里空空如也

Python 原生爬虫教程

前端开发

JavaScript

JavaScript 入门教程

TypeScript 入门教程

Vue 入门教程

Ajax 入门教程

ES6-10 入门教程

Yarn 入门教程

ECharts 入门教程

HTML & CSS

CSS3 入门教程

雪碧图入门教程

移动端布局教程

Html5 入门教程

Sass 入门教程

HTML 入门教程

canvas 入门教程

uni-app 入门教程

服务端相关

服务器

Nginx 入门教程

HTTP 入门教程

Docker 入门教程

Shell 入门教程

Linux 入门教程

开发工具

Gradle 入门教程

Vim 编辑器教程

RESTful 规范教程

Dreamweaver 教程

Markdown 入门教程

Maven 入门教程

Eclipse 编辑器教程

GitHub 入门教程

Android Studio 编辑器教程

PyCharm 编辑器教程

Sublime Text 使用教程

Postman 教程

Git入门教程

热门服务端语言

C 语言入门教程

Go 入门教程

Kotlin 教程

Ruby 入门教程

ThinkPHP 入门教程

Java

基础应用

Java 入门教程

Android 入门教程

算法入门教程

数据结构入门教程

Lambda 表达式教程

Java 并发原理入门教程

设计模式入门教程

Java并发工具

JVM 入门教程

RabbitMQ 入门教程

网络编程入门教程

后端通用面试教程

框架应用

Spring Boot 入门教程

Spring 入门教程

Hibernate 入门教程

MyBatis 入门教程

Spring MVC 入门教程

Swagger 入门教程

Zookeeper 入门教程

Netty 教程

Spring Security

微服务

Spring Cloud Hystrix

Python

基础应用

Python 入门语法教程

最近搜索清空