首页手记 python小知识点随手记

python小知识点随手记

标签：

Python 大数据机器学习

使用脚本启动 scrapy 爬虫

from scrapy.cmdline import execute

import sys
import os
print(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","douban"])
# setting --> ROBOTSTXT_OBEY = False

爬虫分析HTML源码时

在使用 Chrome 浏览器复制的 xpath 时，网页可能会加载其他标签。导致浏览器获取的 xpath 是无效的。
对于 p 标签的 text 是无法获取到全部 text 的，因为他无法识别节点。

scrapy 获取HTML数据

xpath 方法使用之一：
包含，class 中包含 vote-post-up 这个 class 的标签

response.xpath('//soan[contains('@class','vote-post-up')]')

css 方法使用之一：
同上：过个 class 中，选取 vote-post-up 底下的 h10 标签的文本

response.css('.vote-post-up h10::text')
resposne.css('a[href='#article'] span::text')

获取属性值：

response.css('a::attr(href)')

两个 class 同时获取

response.css('.a.b')

extract_first("") # 若返回值为空，则返回默认值 ""

scrapy 传值给回调函数

meta={"key":"val"}
response.meta.get('key','')

判断是否为 unicode

if isinstance("",str):
    print("unicode")

pipeline 注意点

在处理完 item 的时候，一定要 return 回去

调用 scrapy 官方的 imgpipeline


class ImgPipeline2(ImagesPipeline):# 他处理完毕之后，会传递给下一个 pipeline
    def item_completed(self, results, item, info):
        for ok,value in results:
            img_file_path = value["path"]
        item['img_file_path'] = img_file_path
        return item

存储 cookie


import http.cookiejar as cookielib

import requests

session = requests.session()
session.cookies = cookielib.LWPCookieJar(filename='cookie.txt')
# session.get('http://www.baidu.com')
# session.cookies.save()

# 是否允许重定向
session.get('url', allow_redirects=False)

# 加载 cookie
session.cookies.load(ignore_discard=True)
print(session.cookies)

正则匹配，匹配多行

re.math("","pattarm",re.DOTALL)

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

zone7

Python工程师

手记
篇

粉丝

2611

获赞与收藏

461

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 24303 818

Python 算法入门教程

15个小节 25702 1009

Python 进阶应用教程

38个小节 61357 956

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空