爬了几百条就不爬了,前面也有404网页都跳过了,但是几百条后就遇到跳不过的404网页ou
根据老师的框架写的爬虫,爬一个网站的一个模块共有6000多条数据,都是爬了一部分不爬了,从不爬的那条404报错之后的那条链接继续爬,又只可以爬几百条,然后又不爬了,在已经爬取得网页里面也有404的网页,但是跳过去了,不明白为什么有些404网页跳不过去,难道是url_manager有问题吗?没有新的url加上去?有没有运行日志什么的可以检查错误的?求大神赐教!
根据老师的框架写的爬虫,爬一个网站的一个模块共有6000多条数据,都是爬了一部分不爬了,从不爬的那条404报错之后的那条链接继续爬,又只可以爬几百条,然后又不爬了,在已经爬取得网页里面也有404的网页,但是跳过去了,不明白为什么有些404网页跳不过去,难道是url_manager有问题吗?没有新的url加上去?有没有运行日志什么的可以检查错误的?求大神赐教!
2016-07-20
举报