首页手记 Golang原生爬虫简单爬虫实现不依赖第三方包库...

Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（二）

标签：

上一篇回顾：Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（一）

本篇原文首发：Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（二）

程序首次执行成功后，我们已经成功获取了源页面所提供的链接地址。下面我们自然要做的就是通过计时器来爬抓链接列表里的地址。

下一步就是要通过地址列表里的地址逐一爬抓，去掉已经爬抓过的练级，并记录新的有效链接到地址列表里。

再看一下我们的main函数：

上面的firstStart函数（首次执行爬抓）已经执行过了，那就会重新调用main函数，也就是在执行一次判断，但是因为我们的url.txt里已经有12条Url地址，所以这次会执行Timer函数。

Timer函数里我们写了一个计时器，防止程序崩溃或者网络崩溃，所以我这里设置了1秒执行一次，其实没有必要这样，一秒钟执行3-8次也是没什么大问题的（本地情况下），如果放在服务器上，那你得看一下自己的服务器配置和带宽配置酌情考虑了

看一下Timer函数吧：

emm...毫不夸张的表示我看自己的代码都有点吃力

上面的代码创建了一个计时器，时间为一秒。刚开始肯定是先要打开url.txt文件,因为是要做删除和添加操作的，所以打开的模式是读写追加。

这一句就是获取url.txt里的第一条链接地址，我们要先判断一下这个链接内容是不是我们想要的，所以我又用到了之前封装的一个正则检查的函数。

checkRegexp函数：

所用到的正则 => regTitle、regCheckTitle

regTitle是为了在代码中匹配真标题，因为有些网站为了防止爬虫，做了一些假标题以混淆视听，但是这些小伎俩还是很容易解决的，这个regTitle足以屏蔽掉70%的假标题。

反正爬虫就是要和各大网站斗智斗勇 /手动滑稽

regCheckTitle是为了过滤出这个网址是不是我想要的内容，所以我简单的写了一串正则。这串正则的意思主要是标题要带有为什么、怎么等关键词，然后标题必须有golang或者go的存在，这样的内容基本上是我想要的了。

判断的代码段：

如果匹配不到，那就跳过这一条链接咯，反正不是我想要的~

然后这一段就是说删掉这一条链接地址，如果没有有一段，你的爬虫将不厌其烦的去爬抓第一条链接地址，能一直爬到你的ip被服务器安全程序处理掉

应该有人发现，然后呢？怎么没有把东西入库，怎么没有抓取新的链接。

emm...博主最近有点忙，这一段还没写，不过这些内容已经把爬虫的基本原理都给讲掉了，其实很简单对不对，就是发起http请求，然后通过正则匹配出自己想要的内容，再做后续的入库或者注入新鲜链接地址，让程序一直运行下去就好了。

运行一下：

嗯，就这样，有效内容就过滤出来了。

然后如果想要把文章内容提取出来，只需要一个很简单的正则就可以了，这里的处理步骤其实可以写一个单独的函数来调用。但博主现在还没有写，可能会在第三篇写上，如果访问量破2k的话

为了防止有些地方细节代码没有贴上，我把main.go的代码贴一下吧，也可以进文章底部的链接下载整个程序的代码实例，如果还有问题可以call我，qq在上一篇文章里，就不重复贴了。

main.go:

附代码实例：https://download.csdn.net/download/superwebmaster/10415730

作者：YSLMaster
链接：https://www.jianshu.com/p/ec3c27af8abf

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

BIG阳

手记
篇

粉丝

68

获赞与收藏

456

关注作者，订阅最新文章

阅读免费教程

Go 入门教程

47个小节 62787 608

Django 入门教程

37个小节 28269 297

后端通用面试教程

41个小节 28740 323

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Golang原生爬虫 简单爬虫实现 不依赖第三方包库 方便理解技术原理 （二）

阅读免费教程

Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（二）