-
网页下载器查看全部
-
URL管理器查看全部
-
简单爬虫 运行流程查看全部
-
简单爬虫结构查看全部
-
先写框架,再写细节。查看全部
-
先打开浏览器审查元素,根据目标分解方法。查看全部
-
网页解析器-DOM(Document Object Model)树查看全部
-
网页下载器,记录。查看全部
-
爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器” 网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”查看全部
-
DOM结构查看全部
-
DOM查看全部
-
urllib2下载网页方法3--添加特殊情景的处理器查看全部
-
urllib2下载网页方法2--添加data、http header查看全部
-
urllib2下载网页方法--1(最简介方法) import urllib2 response = urllib2.urlopen('http://wwww.baidu.com') #若状态码为200,则表示成功 print response.getcode() #读取下载的内容 cont = response.read()查看全部
-
两种网页下载器 urllib2:python自带 requests:第三方包,更强大查看全部
举报
0/150
提交
取消