basil_2020 · 更新于 2020-03-26

01 网络爬虫简介

03 HTML 与 CSS 基础入门

网页基本构成和抓取原理

网页，是一种可以被浏览器等客户端解析的一种文件。与我们平常遇到的文件的区别是：网页是根植于互联网的。也就是说我们通过浏览器浏览的网页文件大部分是不在本地的，它有可能在世界上的任何一台连接网络的计算机上面。而且，通过网络的超链接，我们可以浏览世界任意角落的网页文件，这就是我们平常说的网上冲浪，足不出户，就能融入整个世界。

爬虫抓取的是数据其实就是网页上的内容，具体的抓取原理我们在这个小节会说到，下面我们先来看下网站的概念：

1. 网站的概念

在具体讲解网页的构成之前。我们需要先了解一下网站的概念。

网站，是对外提供服务的多个网页构成的集合。它主要分为静态网站和动态网站。

1.1 静态网站

静态网站指的是网站下所有的页面都是使用 HTML 构成的网站。所谓静态，不是指网页是静止不动的，网页中也可以有动画，视频等信息。这里的静态，指的是无法与服务端进行互动。只是被动的解析显示服务器端响应回来的信息。

静态网站的优点：

容易被搜索引擎收录，方便 SEO 优化。
内容独立，不依赖于数据库。

静态网站的缺点：

维护成本比较大，大部分内容需要人工手工更新。
页面无法互动，用户体验不佳。

1.2 动态网站

动态网站相对于静态网站，它可以提供更多交互上的体验。比如，用户的注册登录，实时推荐等功能。动态网站里面不仅包含了静态的 HTML 文件，也会包含服务器端的脚本，比如 Jsp，Asp 等。

动态网站的优点：

用户体验良好，可以实现更多个性化的设置。
服务器可以对客户端进行更多的互动，方便服务器对数据的管理和分析。

动态网站的缺点：

需要与数据库进行处理，访问速度大大降低。
对于搜索引擎不友好。

不管是静态网站里面的网页，还是动态网站里面的网页，他们都有一些网页共同的基本内容。下面我们来看下网页的三大基本元素：

2. 网页的三大基本元素：

后面的章节，我们会对网页的三大基本元素进行具体的介绍，这里只是简单的阐述一些基本的概念和用途。

2.1 HTML

HTML 是一种标记语言。标记语言并不是编程语言，它无法使用逻辑编程的方式进行编程。它只是约定了一种文档的展现方式。通过约定不同的标签所代表的不同含义，从而在浏览器端渲染出丰富多彩的网页。主要包含头部和主体两大部分。HTML 主要负责页面的结构。

2.2 CSS

级联样式表，有时候也叫做风格样式表。需要配合 HTML 来使用，从而提供丰富的渲染效果。

2.3 Javascript

是一种脚本语言，广泛的用于前端的逻辑实现。通过 javascript 可以实现许多定制的效果，是前端使用的最广泛的编程语言。

综上所述，HTML，CSS，Javascript 共同构成了网页的丰富的样式。三者缺一不可，没有 HTML，CSS， Javascript 就是无源之水，毫无意思；没有 CSS，网页就失去了色彩和样式，最终会使得 HTML千篇一律；没有 Javascript，我们就无法看到动态的网页，只是一潭死水。

3. 爬虫抓取原理

爬虫爬取的数据其实就是网页上面的内容，我们需要通过特定的工具对网页进行分析，比如说 Beautiful Soup。然后提取出 HTML 中的特定标签下的数据。然后，将数据进行持久化保存，方便日后的数据的分析。

简单点讲，我们使用爬虫，最根本的目的是爬取网页中对我们有价值的信息和数据。所以，我们大部分爬取的工作，都是在筛选我们有用的信息，并剔除掉无用的信息。这就是爬虫核心所在。

4. 小结

通过这一小节，我们认识了网页的基本元素，在我们使用的爬虫的过程中，随时随地都需要分析网页的构成要素，因此，熟练的掌握的网页的基本元素的构成，对于我们后面进行网页的分析很有帮助。

01 网络爬虫简介

03 HTML 与 CSS 基础入门

我要提出意见反馈

热搜

最近搜索 清空

我的购物车

已加入门课程

购物车里空空如也

Python 原生爬虫教程

前端开发

JavaScript

JavaScript 入门教程

TypeScript 入门教程

Vue 入门教程

Ajax 入门教程

ES6-10 入门教程

Yarn 入门教程

ECharts 入门教程

HTML & CSS

CSS3 入门教程

雪碧图入门教程

移动端布局教程

Html5 入门教程

Sass 入门教程

HTML 入门教程

canvas 入门教程

uni-app 入门教程

服务端相关

服务器

Nginx 入门教程

HTTP 入门教程

Docker 入门教程

Shell 入门教程

Linux 入门教程

开发工具

Gradle 入门教程

Vim 编辑器教程

RESTful 规范教程

Dreamweaver 教程

Markdown 入门教程

Maven 入门教程

Eclipse 编辑器教程

GitHub 入门教程

Android Studio 编辑器教程

PyCharm 编辑器教程

Sublime Text 使用教程

Postman 教程

Git入门教程

热门服务端语言

C 语言入门教程

Go 入门教程

Kotlin 教程

Ruby 入门教程

ThinkPHP 入门教程

Java

基础应用

Java 入门教程

Android 入门教程

算法入门教程

数据结构入门教程

Lambda 表达式教程

Java 并发原理入门教程

设计模式入门教程

Java并发工具

JVM 入门教程

RabbitMQ 入门教程

网络编程入门教程

后端通用面试教程

框架应用

Spring Boot 入门教程

Spring 入门教程

Hibernate 入门教程

MyBatis 入门教程

Spring MVC 入门教程

Swagger 入门教程

Zookeeper 入门教程

Netty 教程

Spring Security

微服务

Spring Cloud Hystrix

Python

基础应用

Python 入门语法教程

最近搜索清空