首页手记【金秋打卡】第3天爬虫面试题笔记

【金秋打卡】第3天爬虫面试题笔记

标签：

爬虫

python 工程師 -爬蟲面試題 -講師??

請簡述HTTP 和 HTTPS 區別?

HTTP : 超文本"明文"传输协议 Port: 80

HTTPS: SSL+HTTP -數據加密 + HTTP 需要帳密 Port: 443

常见的响应状态码有哪些, 分别代表甚么意思?

200 请求成功

302 资源(网页等)被永久转移到其他URL

404 请求的资源不存在

500 内部服务器错误

列举请求头中常见的栏位?

User-Agent: 客户端请求标示

Accept: 传输文件类型

Referer: 请求跳转来源

cookie: 登陆凭据

Content-Type: 数据类型

cookie 和 session 的区别?

cookie 和 session 都是跟踪浏览用户者的

cookie保存在客户端 session保存在服务器端

cookie过期看生成时设置的值 session过期看服务器设定

IP proxy distinction?

透明代理:

最不安全 -爬虫请求数据时会携带真实IP

普通匿名代理

-改变请求, 隐藏真实IP

高匿名代理

-隐藏真实IP, 不改变请求

python 中有哪些框架和技术被应用于爬虫?

爬虫请求数据 -request, selenium, scrapy

爬虫解析数据 -beautifulsoup, lxml, xpath, re

爬虫存储数据 -pymongo, redis

常见的反爬手段有哪些及破解办法?

Headers反爬 -User-Agent : 携带正确的User-Agent和使用随机User-Agent列表和fake-useragent

Headers反爬 -cookie : 注册多个帐号获取数据或破解JS生成cookie逻辑

Headers反爬 -通过referer栏位: 伪造referer

IP反爬 -IP limitation: IP proxies pool

验证码反爬: pytesseract/ 商业打码平台/ selenium

前端JS加密: 破解JS -pyexeJS/ selenium

如何增量爬取数据? (能够保存上一次的状态)

scrapy-redis 透过url 生成redis 指纹比对下一次的指纹

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

精慕门_learner

学生

手记
篇

粉丝

0

获赞与收藏

2

关注作者，订阅最新文章

阅读免费教程

Python 原生爬虫教程

19个小节 57187 1228

Scrapy 入门教程

27个小节 11313 274

后端通用面试教程

41个小节 33044 372

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

【金秋打卡】第3天 爬虫面试题笔记

阅读免费教程

【金秋打卡】第3天爬虫面试题笔记