为了账号安全,请及时绑定邮箱和手机立即绑定

请问一下,爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题?

请问一下,爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题?

catspeake 2019-11-27 19:06:16
爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题
查看完整描述

3 回答

?
HUWWW

TA贡献1874条经验 获得超12个赞

对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能,直接在item中增加Url字段。 item['Url'] = response.url 然后在数据端把储存url的column设置成unique。 之后在python代码中捕获数据库commit

查看完整回答
反对 回复 2019-12-01
?
aluckdog

TA贡献1847条经验 获得超7个赞

试试这个
def start_requests(self):
script = """
function main(splash)
splash:set_viewport_size(1028, 10000)
splash:go(splash.args.url)
local scroll_to = splash:jsfunc("window.scrollTo")
scroll_to(0, 2000)
splash:wait(15)
return {
html = splash:html()
}
end
"""

for url in self.start_urls:
yield Request(url,callback=self.parse_info_index,meta = {
'dont_redirect': True,
'splash':{
'args':{'lua_source':script,'images':0},
'endpoint':'execute',

}
})



查看完整回答
反对 回复 2019-12-01
  • 3 回答
  • 0 关注
  • 884 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信