Python开发简单爬虫_学习笔记

首页免费课 Python开发简单爬虫笔记

Python开发简单爬虫

最热最新

慕数据0035758

轻量级爬虫：不需要登录的静态网页的抓取

查看全部

0 采集收起来源：Python开发简单爬虫课程介绍
2017-07-16
慕粉2043302679 03:37

带有COOKies的访问

查看全部

0 采集收起来源：Python爬虫urlib2下载器网页的三种方法
2017-07-16
诗赋

BeautifulSoup语法：根据一个HTML网页字符串创建BeautifulSoup对象，创建的同时就将整个文档字符串下载成一个DOM树，后根据这个DOM树搜索节点。find_all方法搜索出所有满足的节点，find方法只会搜索出第一个满足的节点，两方法参数一致。搜索出节点后就可以访问节点的名称、属性、文字。因此在搜索时也可以按照以上三项搜索。 from bs4 import BeautifulSoup #根据HTML网页字符串创建BeautifulSoup对象 soup = BeautifulSoup（ html_doc, #HTML文档字符串 ‘html.parser’ #HTML解析器 from_encoding=‘utf8’#HTML文档的编码）搜索节点： find_all（name，attrs，string）#方法 soup.find_all（‘a’）#查找所有标签为a的节点 #查找所有标签为a，链接符合/view/123.htm形式的节点 soup.find_all（‘a’，href=‘/view/123.htm’） soup.find_all（‘a’，href=re.compile（r‘/view/\d+\.htm’）） #查找所有标签为div，class为‘abc’，文字为Python的节点 soup.find_all（‘div’，class_=‘abc’，string=‘Python’） #_是因为dom中有class 访问节点信息 #得到节点：<a href=‘1.html’>Python</a> #获取查找到的节点的标签名称 node.name #获取查找的a节点的href属性 node['href'] #获取查找到的a节点的链接文字 node.get_text（）

查看全部

1 采集收起来源：BeautifulSoup的语法
2018-03-22
诗赋

BeautifulSoup：Python第三方库，用于从HTML或XML中提取数据官网：http://www.crummy.com/software/BeautifulSoup 安装：在已有pip的情况下在cmd中运行pip install beautifulsoup4 导入：import bs4

查看全部

0 采集收起来源：BeautifulSoup模块介绍和安装
2017-07-14
诗赋

网页解析器：从网页中提取有价值数据的工具网页解析器以Html网页字符串为输入提取出价值数据和新URL列表 Python网页解析器： 1.正则表达式 2.html.parser 3.BeautifulSoup（可使用html.parser和lxml作为解析器，较强大） 4.lxml 正则表达式采取模糊匹配后三者采取结构化解析结构化解析-将整个网页文档下载成一个DOM树，以树的方式进行遍历和访问。将整个网页文档当成一个Document对象，其下是根节点<html>，根节点下有元素<head>和元素<body>。<head>元素下有<title>元素，每个元素如果没有子元素就会对应到它的文本（如title对应文本的标题）。元素<body>下包含元素<a>和元素<div>，元素<a>下是文本的链接，元素<div>包含子元素或文本段落。如果每个元素有自身属性也会包含其属性如<href>。通过树可以定位到元素，访问其属性和自身文本

查看全部

0 采集收起来源：Python爬虫网页解析器简介
2018-03-22
诗赋

3.添加特殊情景的处理器：需要用户登录的需要cookie处理：HTTPCookieProcessor 代理访问：ProxyHandler HTTPS加密访问：HTTPSHandler URL相互自动跳转：HTTPRedirectHandler 将这些handler传递给urllib2的build_opener的方法来创建一个opener对象： opener = urllib2.build_opener(handler) 然后给urllib2 install_opener这个opener： urllib2.install_opener（opener）后urllib2.urlopen（url）或urllib2.urlopen（request）举例cookie import urllib2，cookielib# cj = cookielib.CookieJar（）#创建cookie容器 #创建1个opener opener = urllib2.build_opener（urllib2.HTTPCookieProcessor（cj）） urllib2.install_opener（opener）#给urllib2安装opener，增强处理器 response = urllib2.urlopen（url）#使用带有cookie的urllib2访问网页

查看全部

0 采集收起来源：Python爬虫urlib2下载器网页的三种方法
2017-07-14
诗赋

urllib2下载网页的方法: 1.最简洁的方法： import urllib2 #导入模块 response = urllib2.urlopen（url）#直接请求 print response.getcode（）#获取状态码，如果是200表示获取成功 cont = response.read（）#读取内容 2.共享处理添加data（需要用户输入的参数）、http header（向服务器提交http信息）将url、data、header传送给urllib2.Request生成request对象，后继续使用urllib2.urlopen（request） import urllib2 #导入模块 request = urllib2.request（url）#创建Request对象 request.add_data（‘a’，‘1’）#提交数据/如a这个数据项等于1 request.add_header（‘User-Agent’，‘Mozilla/5.0’）#添加http的header/将爬虫伪装成Mozilla浏览器 response = urllib2.urlopen（request）#发送请求获取结果

查看全部

0 采集收起来源：Python爬虫urlib2下载器网页的三种方法
2017-07-14
慕先生5553936 01:23

URL

查看全部

0 采集收起来源：Python爬虫URL管理器的实现方式
2017-07-14
慕先生5553936 01:44

URL

查看全部

0 采集收起来源：Python爬虫URL管理
2017-07-14
诗赋

网页下载器：将互联网上URL对应的网页下载到本地的工具网页下载器通过URL将互联网上的HTML下载到本地存储成本地文件或内存字符串，后进行后续处理网页下载器：urllib2、requests

查看全部

0 采集收起来源：Python爬虫网页下载器简介
2017-07-14
诗赋

URL管理器实现方式： 1.内存 Python内存 -> set（）个人，小公司 2.关系数据库 MySQL urls（url，is_crawled）永久存储 3.缓存数据库 redis set 大公司

查看全部

0 采集收起来源：Python爬虫URL管理器的实现方式
2018-03-22
诗赋

URL管理器：管理待抓取URL集合和已抓取URL集合防止重复抓取、防止循环抓取功能： 1.判断待添加URL是否在容器中 2.添加新URL到待爬取集合 3.判断是否有待爬取URL 4.获取待爬取URL 5.将URL从待爬取移动至已爬取

查看全部

1 采集收起来源：Python爬虫URL管理
2017-07-13
诗赋

爬虫即为自动访问互联网并提取数据的程序

查看全部

0 采集收起来源：爬虫是什么
2017-07-13
诗赋

架构模块 1.URL管理器 2.网页下载器（urllib2） 3.网页解析器（BeautifulSoup）

查看全部

0 采集收起来源：Python开发简单爬虫课程介绍
2017-07-13
安东尼w2 05:17

分析目标

查看全部

0 采集收起来源：Python爬虫实例-分析目标
2017-07-13

首页上一页 143 144 145 146 147 148 149 下一页尾页

0/150

提交

取消

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫