basil_2020 · 更新于 2020-03-26

04 HTTP 协议通信基原理

06 Python 环境安装

HTTP 的请求和响应

上一个小节中，我们简单的介绍了 HTTP 协议，但是，并没有针对 HTTP 的请求和响应进行更详尽的描述。但是，分析请求和响应信息是我们进行爬虫工作中的重要步骤，因此，有必要详细的介绍这两个步骤。

我们还是复用之前的访问慕课网的例子进行 HTTP 协议的解析。关于怎么获取请求头和响应头的信息的内容，我们会在后面讲解第一个爬虫的时候进行讲解。

使用 get 方法请求慕课网的请求信息如下：

GET / HTTP/1.1
Host: www.imooc.com
Connection: keep-alive
Cache-Control: max-age=0

HTTP 请求主要有四部分组成。分别是请求行，请求头部，空行和请求数据。

1. 请求行

我们先来看下第一部分，请求行：

GET / HTTP/1.1

请求行里的 GET 是请求方法。请求方法主要是告诉服务器端，客户端要对资源实行什么样的具体操作，方便服务器进行响应的处理。

HTTP 1.0 规定的方法： GET，POST，HEAD；
HTTP 1.1 新增的请求方法：OPTIONS，PUT，DELETE，TRACE，CONNECT；
HTTP 规定的主要请求如下表所示，我们主要使用的实际上就是 get，post 这两个请求。

常用的请求方法

序号	请求方法	方法描述
1	GET	用来获取服务器的信息。
2	POST	用于创建一个文件，请求是非幂等的。
3	HEAD	通过这个来获取响应的报头文件，不包含的具体内容。
4	PUT	主要是用来更新文件，这个方法对服务器来讲，应该是幂等的。
5	DELETE	这个命令是用来请求让服务器端来删除特定的信息。
6	OPTIONS	这个方法可以让客户端可以查看服务器可以提供的请求方法等信息。
7	TRACE	这个主要用于测试和诊断，可以回显服务器的信息。
8	CONNECT	HTTP/1.1协议中预留的请求方法，不常使用。

Get 后面的 / 是来标明请求的资源信息，我们这里是想访问慕课网的主页，所以写 /。 HTTP/1.1 指的是 HTTP 的协议版本。

Tips：HTTP 是在 1990 左右提出的协议，距今已经有几十年的历史了。广泛使用的版本有 1.0,1.1，现在也有 2.0 的版本，不过还没有普及。除此之外，对安全要求高的一些网站，也有的开始采用 HTTPS 协议进行传输。HTTPS 提供了更多的安全校验，是利用 SSL/TLS 技术进行加密的，相对于普通的 HTTP，更加安全，隐私更不容易泄露。

好了说完了请求行，让我们来介绍一下请求头部。

2. 请求头

从第二行开始，都是请求头部的信息，比如我第二行的 Host: www.imooc.com，用来表明请求的地址是什么。还有一些其他的信息，比如浏览器可接受的语言类型，字体编码，Cookie 等信息。

接下来是空行，不必多说。最后面的一部分是我们的请求的具体内容，请求内容可以是表单，也可以是 JSON 等格式。

3. HTTP响应

正如 HTTP 请求包含四部分一样，HTTP 的响应同样包含四个部分。分别是状态行，消息报头，空行，以及响应正文。

下面这个是我们访问慕课网后，返回的信息：

HTTP/1.1 200 OK
Server: nginx
Content-Type: text/html; charset=UTF-8
Content-Length: 49930
Connection: keep-alive

<HTML>....

第一行为状态行，同样的，需要标明 HTTP 协议的版本，然后后面是一个状态码。这里的 200 表示请求成功。OK 是用来表明请求的状态消息，通过消息我们可以对请求的错误进行定位。

常见的状态码如下表所示：

状态码	解释
200 OK	请求成功
400 Bad Request	请求消息有语法错误。
401 Unauthorized	未经授权，必须和WWW-Authenticate报头域一起使用。
403 Forbidden	拒绝提供服务
404 Not Found	请求的资源不存在，或者被移除了
500 Internal Server Error	服务器端错误，通常是服务器端代码逻辑错误造成的
503 Server Unavailable	服务不可用，有可能需要等一段时间进行恢复

Tips：总结一下规律，2 开头的意味着成功，3 开头的大部分是重定向，4 开头是客户端错误，5 开头的是服务器端的错误。

第二行的 Server: nginx表明了服务器端采用的服务器名称。Content-Length: 49930 是消息报头表明了服务器返回的 HTML 内容的长度。Connection: keep-alive 是空行，空行必须要有，不可省略。最后是响应正文，一般会是一个 HTML 文档。

4. 个人经验

这一小节，内容比较多，但是不需要大家记住所有的知识点，比如请求方法和服务器状态码，只需要记住经常使用的那几个就可以了，其他的，工作中遇到的话，再去查找。

5. 小结

本小节主要讲解了 HTTP 的请求与响应，对于我们爬虫程序来说，主要使用的就是 get 请求。对于返回的状态码的了解，可以方便的调试和分析我们的爬虫程序是否运行良好。

04 HTTP 协议通信基原理

06 Python 环境安装

我要提出意见反馈

热搜

最近搜索 清空

我的购物车

已加入门课程

购物车里空空如也

Python 原生爬虫教程

前端开发

JavaScript

JavaScript 入门教程

TypeScript 入门教程

Vue 入门教程

Ajax 入门教程

ES6-10 入门教程

Yarn 入门教程

ECharts 入门教程

HTML & CSS

CSS3 入门教程

雪碧图入门教程

移动端布局教程

Html5 入门教程

Sass 入门教程

HTML 入门教程

canvas 入门教程

uni-app 入门教程

服务端相关

服务器

Nginx 入门教程

HTTP 入门教程

Docker 入门教程

Shell 入门教程

Linux 入门教程

开发工具

Gradle 入门教程

Vim 编辑器教程

RESTful 规范教程

Dreamweaver 教程

Markdown 入门教程

Maven 入门教程

Eclipse 编辑器教程

GitHub 入门教程

Android Studio 编辑器教程

PyCharm 编辑器教程

Sublime Text 使用教程

Postman 教程

Git入门教程

热门服务端语言

C 语言入门教程

Go 入门教程

Kotlin 教程

Ruby 入门教程

ThinkPHP 入门教程

Java

基础应用

Java 入门教程

Android 入门教程

算法入门教程

数据结构入门教程

Lambda 表达式教程

Java 并发原理入门教程

设计模式入门教程

Java并发工具

JVM 入门教程

RabbitMQ 入门教程

网络编程入门教程

后端通用面试教程

框架应用

Spring Boot 入门教程

Spring 入门教程

Hibernate 入门教程

MyBatis 入门教程

Spring MVC 入门教程

Swagger 入门教程

Zookeeper 入门教程

Netty 教程

Spring Security

微服务

Spring Cloud Hystrix

Python

基础应用

Python 入门语法教程

最近搜索清空