为了账号安全,请及时绑定邮箱和手机立即绑定

Python爬虫如何正确判断页面是否可以爬取?

Python爬虫如何正确判断页面是否可以爬取?

MM们 2018-10-05 15:27:20
用Python27些爬虫,想要爬取一些网站,我需要判断网页是否可以爬取,第一反应是通过状态码来判断,但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面,可他的状态码却是200,结果爬回来好多根本就不存在的页面。这个本来是网站设置的问题,但是现在也不能用状态码来判断了,请问还有什么方法可以正确判断一个页面是不是404该不该爬?
查看完整描述

2 回答

?
PIPIONE

TA贡献1829条经验 获得超9个赞

做个网页内容的判断,如果他网页里面没有内容就直接返回。

查看完整回答
反对 回复 2018-10-14
  • 2 回答
  • 0 关注
  • 4580 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信