为了账号安全,请及时绑定邮箱和手机立即绑定

scrapy Rule如何解析json格式的链接?

scrapy Rule如何解析json格式的链接?

手掌心 2019-01-05 11:44:12
rules = {    'sina':(         Rule(LinkExtractor(allow='/\d+-\d+-\d+\/.*?-.*?.shtml', deny=('http://search.sina.com.cn/.*?')),              callback='parse_item', follow=True),         ) }如上,目的是从目标页面解析出符合条件的链接目标页面示例:https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=1&encode=utf-8&callback=feedCardJsonpCallback&_=1545017197742试了很多正则的方法,都匹配不出来"urls":"[\"https:\\\/\\\/news.sina.com.cn\\\/o\\\/2018-12-18\\\/doc-ihqhqcir7816653.shtml\"]"这里面的链接,正则表达式测试过没问题,但是在scrapy 的Rule里就不行
查看完整描述

1 回答

  • 1 回答
  • 0 关注
  • 562 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信