为了账号安全,请及时绑定邮箱和手机立即绑定

一个爬freebuf所有历史文章的爬虫

标签:
Python

Freebuf-Spider

一个抓取freebuf所有栏目的文章的爬虫,以离线网页形式展现,上传了一些爬取好的结果

程序运行方式

  python freebuf.py

https://img1.sycdn.imooc.com//5d32702b000127e706420500.jpg

  • 输入文件名:输入要生成的html文件的文件名

  • 输入栏目网址:freebuf文章分成了很多栏目,在分类阅读里面可以获取每个栏目的网址

https://img1.sycdn.imooc.com//5d32702f0001d3cf05160393.jpg

  • 该栏目总共有多少页:在栏目网址后面加上   /page/页数

http://www.freebuf.com/sectool    -->http://www.freebuf.com/sectool/page/100

如果返回是

https://img1.sycdn.imooc.com//5d3270340001b39807210571.jpg


说明这个栏目没有这么多页,写程序的二分法不用我教吧,用这个方法可以快速得出总页数,然后填上即可

需要模块

  import requests  import re  import urllib

输出结果

暂时爬取了三个栏目放在这里,大家可以看下效果,自己可以动手爬其他的

终端安全

可以看到freebuf终端安全的文章从建站到现在全部在这里了

https://img1.sycdn.imooc.com//5d32703a0001f74807370427.jpg

安全工具合集

https://img1.sycdn.imooc.com//5d32703d000168fd07110561.jpg

下载

程序和生成结果在这里下载!

各位给个star吧('')


作者:hfyhfyfhy
链接:https://www.jianshu.com/p/36e88702853b

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消