-
URL管理器查看全部
-
爬虫架构查看全部
-
网页解析器:从网页中提取中有价值数据的工具 从HTML网页字符串中通过网页解析器,分别出价值数据和新URL列表 哪几种: 模糊匹配: 1.正则表达式:将网页文档当做字符串,使用合乎匹配的方式,这种方法比较直观,但是如果遇到网页文档比较复杂的情况下就非常麻烦 结构化解析(结构化解析-DOM(Document Object Model)树的方式来进行上下级的访问): 2.html.parser: 3.Beautiful.Soup:第三方插件 可以使用2.4.解析器 4.lxml:第三方插件查看全部
-
审查元素 不完整的url 需要补充完整才能访问 代码 格式规律 目标、入口页、URL格式(拼接成完整的url)、数据格式、页面编码查看全部
-
抓取步骤查看全部
-
访问节点信息查看全部
-
搜索节点 名称、属性、文字 都可以用正则表达式查看全部
-
创建对象代码查看全部
-
如果两个url相互指向,那么在抓取的时候将陷入死循环,重复抓取,所以非常有必要对url进行管理,所以产生了url管理器。查看全部
-
爬虫就是自动访问互联网并且获取有价值的信息的过程。查看全部
-
爬虫可以从一个特定的url出发,访问它所关联的所有的url查看全部
-
url之间的相互指向,形成网状关系查看全部
-
爬虫架构中的三大模块: url管理器(管理将要抓取的和已经抓取过的url); 网页下载器urllib2(将给定的url的网页内容下载到本地,以便后续的分析); 网页解析器beautifulsoup(通过解析得到我们想要的内容)。查看全部
-
不需要登录的静态网页查看全部
-
准备学习第三章查看全部
举报
0/150
提交
取消