-
访问节点信息查看全部
-
搜索节点查看全部
-
创建BeautifulSoup对象查看全部
-
关于html页面操作的语法查看全部
-
安装bs4查看全部
-
网页解析器查看全部
-
第三种查看全部
-
第二种查看全部
-
urllib2最简洁的方法查看全部
-
URL管理器中url的存储方式查看全部
-
运行流程查看全部
-
简单爬虫架构查看全部
-
爬虫调度器:启动、停止、监视爬虫运行情况; URL管理器:将要爬取的URL和已经爬取的URL 网页下载器:URL管理器将将要爬取的URL传送给网页下载器下载下来; 网页解析器:将网页下载器下载的网页的内容传递给网页解析器解析; (1)、解析出新的URL传递给URL管理器; (2)、解析出有价值的数据; 上面三个形成了一个循环,只要网页解析器有找到新的URL,就一直执行下去;查看全部
-
轻量级爬虫:不需要登录的静态网页的抓取 架构模块 1.URL管理器 2.网页下载器(urllib2) 3.网页解析器(BeautifulSoup)查看全部
-
python3.6下 import urllib.request import http.cookiejar url = 'https://baidu.com' print('urllib下载网页方法1:最简洁方法') #直接请求 res = urllib.request.urlopen(url) #获取状态码,如果是200则获取成功 print(res.getcode()) #读取内容 #cont是很长的字符串就不输出了 cont = res.read() print('urllib下载网页方法2:添加data、http header') #创建Request对象 request = urllib.request.Request(url) #添加数据 request.data = 'a' #添加http的header #将爬虫伪装成Mozilla浏览器 request.add_header('User-Agent', 'Mozilla/5.0') #发送请求获取结果 response = urllib.request.urlopen(request) print('urllib下载网页方法3:添加特殊情景的处理器') #创建cookie容器 cj = http.cookiejar.CookieJar() #创建一个opener opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj)) #给urllib安装opener urllib.request.install_opener(opener) #使用带有cookie的urllib访问网页 response = urllib.request.urlopen(url)查看全部
举报
0/150
提交
取消