课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python最火爬虫框架Scrapy入门与实践

分页，回调没成功

# -*- coding: utf-8 -*-
import scrapy
from douban.items import DoubanItem

class DoubanSpiderSpider(scrapy.Spider):
    #爬虫名
    name = 'douban_spider'
    allowed_domains = ['movic.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        movic_list=response.xpath("//div[@class='article']//ol[@class='grid_view']/li")
        for i_item in movic_list:
            douban_item=DoubanItem()
            douban_item['serial_number']=i_item.xpath(".//div[@class='item']//em/text()").extract_first()
            douban_item['movic_name']=i_item.xpath(".//div[@class='info']/div[@class='hd']/a/span[1]/text()").extract_first()
            content=i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text()").extract_first()
            for i_content in content:
                content_s="".join(i_content.split())
                douban_item['introduce']=content_s
            douban_item['star']=i_item.xpath(".//span[@class='rating_num']/text()").extract_first()
            douban_item['evaluate']=i_item.xpath(".//div[@class='star']//span[4]/text()").extract_first()
            douban_item["des"]=i_item.xpath(".//p[@class='quote']/span/text()").extract_first()
            print(douban_item)
            yield  douban_item
        next_link=response.xpath("//span[@class='next']/link/@href").extract()
        if next_link:
            next_link=next_link[0]
            yield scrapy.Request("https://movie.douban.com/top250" + next_link, callback=self.parse)

躺着学代码

2018-08-31

源自：Python最火爬虫框架Scrapy入门与实践 2-7

关注问题我要回答

1273

操作

收起

1 回答

qq_蔚蓝色的天空_3 回答被采纳 +2 积分
2018-09-09

这个是scrapy中回调时被过滤了解决方法

在 allowed_domains 中加入 url
在 scrapy.Request() 函数中将参数 dont_filter=True 设置为 True

修改这一行代码如下，我个人采取第二种方式dont_filter=Ture：

yield scrapy.Request("https://movie.douban.com/top250"+next_link, callback=self.parse, dont_filter=True)

3 回复有任何疑惑可以回复我~

收起回答

0/150

提交

取消

Python最火爬虫框架Scrapy入门与实践

参与学习 67421 人
解答问题 235 个

做为爬虫工程师Python Scrapy主流爬虫框架你必须要会！

进入课程

本课相似问答

1 回答分页做不了

2 回答没有报错,但是没有抓取到任何网页信息

4 回答老师问一下，response.text可以打印出top250页面。但是i_item无法打印，可能是什么原因造成的？

3 回答这个错误是怎么回事?

1 回答Xpath在解析的时候没问题，但是有的Xpath语句就爬不到东西怎么回事呢

搜索更多本课相关问答

分页，回调没成功

我要回答关注问题

热搜

最近搜索清空

分页，回调没成功

1 回答

本课相似问答

分页，回调没成功