为了账号安全,请及时绑定邮箱和手机立即绑定

已采纳回答 / qq_蔚蓝色的天空_3
这个是scrapy中回调时被过滤了  解决方法在 allowed_domains 中加入 url 在 scrapy.Request() 函数中将参数 dont_filter=True 设置为 True修改这一行代码如下,我个人采取第二种方式dont_filter=Ture:
yield scrapy.Request("https://movie.douban.com/top250"+next_link, callback=self.parse, dont_filter=True)

已采纳回答 / qq_MakiseKurisu_0432
你用virtualenv的时候,运行文件时,是否workon切换到正确的解释器了

讲师回答 / 大壮老师
settings里设置
ROBOTSTXT_OBEY = False

已采纳回答 / 一叹千年4267468
pip install pypiwin32装一下这个模块再运行就好了

已采纳回答 / Accidie漠然
只显示“1994 / 美国 / 犯罪 剧情”是因为在for循环里,douban_item['introduce']的值被覆盖了,如果想全部爬取的话,可以声明douban_item['introduce']为一个数组,把i_content循环append到数组里就可以了

讲师回答 / 大壮老师
贴上你的代码

讲师回答 / 大壮老师
很多网站,浏览器里解析出来的结果和scrapy解析的结果是不同的。使用scrapy Request网页后,可以将网页保存到本地,查看一下

讲师回答 / 大壮老师
lrzsz是linux操作系统里面使用的命令,可以使用yum来安装,windows下可以使用ftp/sftp来传输。@慕移动3583026 的答案是对的

讲师回答 / 大壮老师
第二章贴的log不全,你把所有的log贴出来

最赞回答 / 灰灰grey
将async随便换一个字段,例如:shark就可以了

讲师回答 / 大壮老师
list_1后面不要写extract_first() ,extract_first()和extract()[1]结果相同,是取列表的第一个元素。list_1后直接写XPATH即可,不需要获取其中元素,在下面的for循环里获取元素。
课程须知
1、具有一定的Python基础 2、具有一定的linux系统管理基础,编译安装软件,yum包管理工具等 3、具有一定的Mongdb数据库管理基础,增删改查
老师告诉你能学到什么?
1、scrapy框架简介、数据在框架内如何进行流动 2、scrapy框架安装、mongodb数据库安装 3、scrapy抓取项目如何创建 4、scrapy抓取项目如何进行数据解析 5、scrapy抓取项目如何绕过反爬机制抓取数据 6、scrapy抓取项目如何存储数据到不同的格式

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消