-
2.2查看全部
-
2.1查看全部
-
分析目标: 1.url格式 2.数据格式 3.网页编码查看全部
-
分析目标查看全部
-
find_all和find查看全部
-
BeautifulSoup语法查看全部
-
课程内容查看全部
-
网页解析器DOM树查看全部
-
简单爬虫架构查看全部
-
from bs4 import BeautifulSoup html_doc="" 创建bs对象 sop=BeautifulSoup(html_doc ,'html.parse' ,from_encoding='utf-8') print '获取所有连接' links=soup.find_all('a') for link in links: print link.name, link['href'],link.get_text() print 'only_lacie' link2 = soup.find('a',href='http://example.com/lacie') print link2.name,link2['href'],link2.get_text() (ctrl +1 import re) print 'regular' link2 = soup.find('a',href=re.compile(r"ill")) print link2.name,link2['href'],link2.get_text() class 在python 中也是关键字,bs4为了区分,改为class_ print 'get_p' p_node = soup.find('p',class_ = "title") print p_node.name,p_node.get_text()查看全部
-
Python 的网页下载器类型: urllib2 :官方基础模块 requests : 第三方包,更强大查看全部
-
url的存储: 1.内存 2.关系数据库 3.缓存数据库 前两者是中小型的,后者用于处理大型查看全部
-
save查看全部
-
Beautiful Soup模块的介绍和安装 在eclipse中测试bs4模块是否已经安装; 打开cmd,进入python的安装目录C:\Python27,进入它的子目录C:\Python27\Scripts\dir,可以看到pip已经安装; 于是,可以使用C:\Python27\Scripts\pip install beautifulsoup4安装这个模块; 回到eclipse重新运行这个模块,可以找到这个模块,说明安装成功。查看全部
-
import urllib2, cookielib #创建cookie容器 cj=cookielib.CookieJar() #创建1个opener opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) #给URLlib2安装opener urllib2.install_opener(opener) #使用带cookie的urllib2访问页面 response=urllib2.urlopen("http://www.baidu.com/")查看全部
举报
0/150
提交
取消