为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
简介:爬虫技术用来从互联网上自动获取需要的数据。课程从对爬虫的介绍出发,引入一个简单爬虫的技术架构,然后通过是什么、怎么做、现场演示三步骤,解释爬虫技术架构中的三个模块。最后,一套优雅精美的爬虫代码实战编写,向大家演示了实战抓取百度百科1000个页面的数据全过程

第1章 课程介绍

本章对课程要学习的内容进行概览,明确告诉大家将从课程中学到开发一个爬虫所需的相关技术。

第2章 爬虫简介以及爬虫的技术价值

本章介绍了爬虫技术的含义,以及爬虫这门技术存在的价值和意义

第3章 简单爬虫架构

本章介绍了精心提炼的一个简洁爬虫技术架构,通过动态图介绍了技术架构实现爬虫任务的流程,使大家对爬虫的整体组成和运行流程有整体的把握。

第4章 URL管理器和实现方法

本章介绍了简单爬虫架构的URL管理器模块,用于管理待爬取的URL集合和已爬取的URL集合,也介绍了实现URL管理器的几种方法

第5章 网页下载器和urllib2模块

本章介绍了简单爬虫架构的网页下载器模块,将网页下载下来然后才能进行后续的数据提取,本章然后介绍了Python自带的urllib2模块的各种使用语法用于网页的下载

第6章 网页解析器和BeautifulSoup第三方模块

本章介绍了简单爬虫架构的网页解析器模块,解析器用于从网页中提取价值数据和新的待爬取URL,本章然后介绍了BeautifulSoup这个强大的第三方模块用于数据的解析和提取

第7章 实战演练:爬取百度百科1000个页面的数据

本章是课程的核心部分,通过一套精心设计并编写的爬虫代码,实现了课程前面讲述的简单爬虫架构中各个组成部分,爬虫代码最终完成了百度百科1000个页面的数据爬取并进行了数据展示,本代码经过配置修改后,可以用来爬取任何网站数据。

第8章 课程总结

本章回顾了课程讲过的知识,对爬虫的技术架构有一个整体的回顾和把握,另外也对爬虫技术的深入发展将会遇到的困难进行了简单展望
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!