首页手记一篇文章教会你利用Python网络爬虫成为斗图达人

一篇文章教会你利用Python网络爬虫成为斗图达人

标签：

Python 大数据爬虫

##【一、项目背景】

你是否在寻找可以与高手斗图的应用？你是否在寻找可以自制表情的应用？你是否在寻找最全、最爆笑的表情库？

斗图网是一个收集了成千上万的撕逼斗图表情包,在这里你可以快速找到想要的表情, 更好的“斗图”，助您成为真正的斗图终结者!

##【二、项目目标】

下载表情包，保存文档。

##【三、涉及的库和网站】

1、网址如下：

https://www.doutula.com/photo/list/?page={}

2、涉及的库：requests**、lxml、ssl****、time**

3、软件：PyCharm

##【四、项目分析】

1、如何找到表情包图片地址？

F12右键检查，找到对应的图片的地址。

观察网址的变化（一般取前三页）：

https://www.doutula.com/photo/list/?page=1
https://www.doutula.com/photo/list/?page=2
https://www.doutula.com/photo/list/?page=3

发现点击下一页时，page{}每增加一页自增加1，用{}代替变换的变量，再用for循环遍历这网址，实现多个网址请求。

2. 如何解除ssl验证？

因为这个网址是https，需要导入一个ssl模块，忽略ssl验证。

**3. **如何获取Cookie？

右键检查，找到NetWork，随便复制一个Cookie即可。

##【五、项目实施】

1、我们定义一个class类继承object，然后定义init方法继承self，再定义一个主函数main继承self。导入需要的库。

import requests
from lxml import etree
from fake_useragent import UserAgent
import ssl  # ssl验证
import time

ssl._create_default_https_context = ssl._create_unverified_context

class  Emoticon(object):
    def __init__(self):
        pass
    def main(self):
        pass

if __name__ == '__main__': 
    spider = Emoticon()
    spider.main()

2、导入网址和构造请求头，防止反爬。

 def __init__(self):
        self.headers = {'User-Agent': 'Mozilla/5.0'}
        self.url = 'https://www.doutula.com/photo/list/?page={}'

3、发送请求，获取响应，页面回调，方便下次请求。

 def get_page(self, url):
        res = requests.get(url=url, headers=self.headers)
        html = res.content.decode("utf-8")
        return html

4、xpath解析页面。

这里我们先获取父节点，在通过for循环遍历，找到对应的子节点（图片地址）。

  image = parse_html.xpath('//ul[@class="list-group"]/li/div/div//a')
  for i in image:
      image_src_list = i.xpath('.//img/@data-original')[0]
      image_name = i.xpath('.//img//@alt')[0]

运行的结果：

5、对图片地址发生请求，取对应图片地址后10位，作为图片的命名，写入文件（每一张图片的后缀名不一样，所有这里不采用image_name作为图片的命名）。

 html2 = requests.get(url=image_src_list, headers=self.headers).content
  name = "/图/" + image_src_list[-20:]
  #print(name[-10:])
  with open(name[-10:], 'wb') as f:
      f.write(html2)
      print("%s 【下载成功！！！！】" % image_name)
      print("==================================")

6、调用方法，实现功能。

   html = self.get_page(url)
   self.parse_page(html)
           print("======================第%s页爬取成功！！！！=======================" % page)

7、time模块打出执行时间。

 start = time.time()
  end = time.time()
  print('执行时间:%.2f' % (end - start))

【六、效果展示】

1、点击绿色小三角运行输入起始页，终止页。

2、将下载成功信息显示在控制台。

3、保存文档，在本地可以看到斗图。

##【七、总结】

1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。

2、本文基于Python网络爬虫，利用爬虫库，获取表情包，存入文档。

3、希望通过这个项目能够了解到，对于HTTPS网站，解除ssl验证的有大致的了解。

4、可以尝试的去爬取其他的分类的表情包，按照步骤去实现，实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解的更加深刻。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕先生0340613

手记
篇

粉丝

23

获赞与收藏

124

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27654 933

Python 算法入门教程

15个小节 30526 1177

Python 进阶应用教程

38个小节 73572 1149

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

一篇文章教会你利用Python网络爬虫成为斗图达人

2. 如何解除ssl验证？

阅读免费教程