为了账号安全,请及时绑定邮箱和手机立即绑定

我的第一个爬虫——爬取百度百科1000个页面的数据

标签:
Python

爬虫最简单的架构就三个方面:

1.URL管理器:主要负责url的管理,可以添加新的url到爬取集合中,将url从待爬取移到已爬取集合等等功能,url管理器的实现方式主要分为3种,python内存中用集合set()来管理,关系数据库mysql,缓存数据库redis;

2.网页下载器:将url对应的网页下载到本地,主要的网页下载器有:urllib是python官方提供的模块,requests是一个强大的三方库;

现在就用urllib来下载网页试试:

下载1:

https://img1.sycdn.imooc.com//5d312d5d0001bb5b07210264.jpg

下载2:主要增加了一个请求头,有些情况下在请求的时候是需要指明请求头的一些信息的;

https://img1.sycdn.imooc.com//5d312d60000194f207170292.jpg

下载3:主要增加了对cookie的应用;

https://img1.sycdn.imooc.com//5d312d640001d21507250303.jpg

3.网页解析器:从网页中提取有价值的数据的工具,网页解析器也有很多,比如:用正则表达式,html.parser,beautifulsoup,lxml等等,其中最强大就是beautifulsoup这个第三方解析器,它可以指定解析方式,现在常用的解析方式就是dom树解析,其实就是根据节点去解析;

beautifulsoup的用法举例:

1.创建beautifulsoup对象,soup=beautifulsoup("文档字符串","html解析器","html文档的编码")

2.findall("节点","属性","文本"),并且支持正则表达式

3.获取信息:node.name:节点标签名称,node["href"]节点的href属性,node.get_text()节点的链接文字;

https://img1.sycdn.imooc.com//5d312d68000100da07460408.jpg

美女_百度百科

正式开始:在开始之前,我们确定目标,爬取百度百科美女词条的标题和简介

入口页:https://baike.baidu.com/item/美女

词条页面url格式:/item/青苔赋

数据格式——标题:<title> 美女_百度百科</title>

数据格式——简介:<meta name="keywords" context="美女 美女汉语词汇 美女女人分类 美女审美标准 美女中国美女出产代表地">

编码:UTF-8

美女_百度百科美女_百度百科美女_百度百科美女_百度百科

下面贴出主module的代码:代码也比较简单,没啥多讲的,只要按照思路一步一步走,就没啥问题,还是简单说一下逻辑:首先拿到目标url,这里需要注意一点就是url考进pycharm会自动被urlencode处理,因为很多字符在url里面是不能存在的,必须先经过编码过程,然后我们需要下载器,解析器,url管理器以及数据处理器这几个模块,我们在类初始化就去实例出这几个对象,然后我们把url添加进url管理器,然后在不断的轮询,通过urllib模块下载,通过BeautifulSoup解析,把新得到的urls添加进url管理器,把解析出来的数据添加进数据处理器,最后在把数据输出成html样式,输出的时候需要注意一点,因为我们的url是经过urlencode编码过的,所以要输出原样的url就必须解码出来,这里使用的是urllib的parse模块的unquote方法,解析出url,然后再把url,title,以及description以表格的形式写入html,最后得到html文件;

https://img1.sycdn.imooc.com//5d312d6c00019be107350470.jpg

我们看看结果:

https://img1.sycdn.imooc.com//5d312d7900018a7e07320378.jpg

代码放在了github上面,地址:https://github.com/softwareXiaotao/spider_baidubaike



作者:hello_我的哥
链接:https://www.jianshu.com/p/0ff9a14076b6


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消