为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
  • 轻量级爬虫:不需要登录的静态网页的抓取
    查看全部
  • 带有COOKies的访问
    查看全部
  • BeautifulSoup语法: 根据一个HTML网页字符串创建BeautifulSoup对象,创建的同时就将整个文档字符串下载成一个DOM树,后根据这个DOM树搜索节点。find_all方法搜索出所有满足的节点,find方法只会搜索出第一个满足的节点,两方法参数一致。搜索出节点后就可以访问节点的名称、属性、文字。因此在搜索时也可以按照以上三项搜索。 from bs4 import BeautifulSoup #根据HTML网页字符串创建BeautifulSoup对象 soup = BeautifulSoup( html_doc, #HTML文档字符串 ‘html.parser’ #HTML解析器 from_encoding=‘utf8’#HTML文档的编码 ) 搜索节点: find_all(name,attrs,string)#方法 soup.find_all(‘a’)#查找所有标签为a的节点 #查找所有标签为a,链接符合/view/123.htm形式的节点 soup.find_all(‘a’,href=‘/view/123.htm’) soup.find_all(‘a’,href=re.compile(r‘/view/\d+\.htm’)) #查找所有标签为div,class为‘abc’,文字为Python的节点 soup.find_all(‘div’,class_=‘abc’,string=‘Python’) #_是因为dom中有class 访问节点信息 #得到节点:<a href=‘1.html’>Python</a> #获取查找到的节点的标签名称 node.name #获取查找的a节点的href属性 node['href'] #获取查找到的a节点的链接文字 node.get_text()
    查看全部
  • BeautifulSoup:Python第三方库,用于从HTML或XML中提取数据 官网:http://www.crummy.com/software/BeautifulSoup 安装:在已有pip的情况下在cmd中运行pip install beautifulsoup4 导入:import bs4
    查看全部
  • 网页解析器:从网页中提取有价值数据的工具 网页解析器以Html网页字符串为输入提取出价值数据和新URL列表 Python网页解析器: 1.正则表达式 2.html.parser 3.BeautifulSoup(可使用html.parser和lxml作为解析器,较强大) 4.lxml 正则表达式采取模糊匹配 后三者采取结构化解析 结构化解析-将整个网页文档下载成一个DOM树,以树的方式进行遍历和访问。将整个网页文档当成一个Document对象,其下是根节点<html>,根节点下有元素<head>和元素<body>。<head>元素下有<title>元素,每个元素如果没有子元素就会对应到它的文本(如title对应文本的标题)。元素<body>下包含元素<a>和元素<div>,元素<a>下是文本的链接,元素<div>包含子元素或文本段落。如果每个元素有自身属性也会包含其属性如<href>。 通过树可以定位到元素,访问其属性和自身文本
    查看全部
  • 3.添加特殊情景的处理器: 需要用户登录的需要cookie处理:HTTPCookieProcessor 代理访问:ProxyHandler HTTPS加密访问:HTTPSHandler URL相互自动跳转:HTTPRedirectHandler 将这些handler传递给urllib2的build_opener的方法来创建一个opener对象: opener = urllib2.build_opener(handler) 然后给urllib2 install_opener这个opener: urllib2.install_opener(opener) 后urllib2.urlopen(url) 或urllib2.urlopen(request) 举例cookie import urllib2,cookielib# cj = cookielib.CookieJar()#创建cookie容器 #创建1个opener opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) urllib2.install_opener(opener)#给urllib2安装opener,增强处理器 response = urllib2.urlopen(url)#使用带有cookie的urllib2访问网页
    查看全部
  • urllib2下载网页的方法: 1.最简洁的方法: import urllib2 #导入模块 response = urllib2.urlopen(url)#直接请求 print response.getcode()#获取状态码,如果是200表示获取成功 cont = response.read()#读取内容 2.共享处理 添加data(需要用户输入的参数)、http header(向服务器提交http信息) 将url、data、header传送给urllib2.Request生成request对象,后继续使用urllib2.urlopen(request) import urllib2 #导入模块 request = urllib2.request(url)#创建Request对象 request.add_data(‘a’,‘1’)#提交数据/如a这个数据项等于1 request.add_header(‘User-Agent’,‘Mozilla/5.0’)#添加http的header/将爬虫 伪装成Mozilla浏览器 response = urllib2.urlopen(request)#发送请求获取结果
    查看全部
  • URL
    查看全部
  • URL
    查看全部
  • 网页下载器:将互联网上URL对应的网页下载到本地的工具 网页下载器通过URL将互联网上的HTML下载到本地存储成本地文件或内存字符串,后进行后续处理 网页下载器:urllib2、requests
    查看全部
  • URL管理器实现方式: 1.内存 Python内存 -> set() 个人,小公司 2.关系数据库 MySQL urls(url,is_crawled) 永久存储 3.缓存数据库 redis set 大公司
    查看全部
  • URL管理器:管理待抓取URL集合和已抓取URL集合 防止重复抓取、防止循环抓取 功能: 1.判断待添加URL是否在容器中 2.添加新URL到待爬取集合 3.判断是否有待爬取URL 4.获取待爬取URL 5.将URL从待爬取移动至已爬取
    查看全部
  • 爬虫即为自动访问互联网并提取数据的程序
    查看全部
    0 采集 收起 来源:爬虫是什么

    2017-07-13

  • 架构模块 1.URL管理器 2.网页下载器(urllib2) 3.网页解析器(BeautifulSoup)
    查看全部
  • 分析目标
    查看全部

举报

0/150
提交
取消
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!