-
创建scrapy爬虫项目
scrapy startproject douban +url
查看全部 -
阿布云代理
查看全部 -
mongo查看数据
查看全部 -
安装pymongo
查看全部 -
保存问json和csv
查看全部 -
Scrapy注意事项
查看全部 -
scrapy arch
查看全部 -
1、创建scrapy爬虫项目
`scrapy startproject douban`
初始化生成的项目目录
```
- spiders
- __init__.py
- __init__.py
- items.py
- middlewares.py
- pipelines.py
- settings.py
- scrapy.cfg
```
2、在生成当前自动生成爬虫文件
`scrapy genspider douban_spider movie.douban.com `
查看全部 -
1、centos 下安装mongoDB提示没有这个包:
`sudo yum -y install mongodb-org`
2、之后从网络上搜索相关的安装源,并编辑文件:
`sudo vim /etc/yum.repos.d/mongo.repo`
3、清理yum安装源:
`sudo yum clean all`
4、重新执行安装命令
查看全部 -
scrapy爬虫注意事项
查看全部 -
使用代理IP地址来爬取目标网站的数据,防止被发现之后封禁真实IP
# user agent 列表
USER_AGENT_LIST = [
'MSIE (MSIE 6.0; X11; Linux; i686) Opera 7.23',
'Opera/9.20 (Macintosh; Intel Mac OS X; U; en)',
'Opera/9.0 (Macintosh; PPC Mac OS X; U; en)',
'iTunes/9.0.3 (Macintosh; U; Intel Mac OS X 10_6_2; en-ca)',
'Mozilla/4.76 [en_jp] (X11; U; SunOS 5.8 sun4u)',
'iTunes/4.2 (Macintosh; U; PPC Mac OS X 10.2)',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:5.0) Gecko/20100101 Firefox/5.0',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:9.0) Gecko/20100101 Firefox/9.0',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:16.0) Gecko/20120813 Firefox/16.0',
'Mozilla/4.77 [en] (X11; I; IRIX;64 6.5 IP30)',
'Mozilla/4.8 [en] (X11; U; SunOS; 5.7 sun4u)'
]
查看全部 -
scrapy 架构图
查看全部 -
scrapy 安装 : pip install scrapy
https 网站不能访问
解决: yum install -y openssl-devel
然后重新编译python
查看全部 -
分布式爬虫,应对反爬策略
查看全部 -
使用ip代理
查看全部
举报