-
爬虫的应用查看全部
-
爬虫:一段自动抓取互联网信息的程序查看全部
-
网页解析器查看全部
-
【2017/10/12】【Python3.6.2】【PyCharm 2017.2】【Chrome】 1 . IDE中文输出;HTML文档中文显示; a . IDE中文输出; 在spider_main.py中, 源码:print('craw %d:%s' % (count, new_url)) 修改:print('craw %d : %s' % (count, urllib.parse.unquote(new_url,encoding='utf-8'))) 记得要 import urllib.parse b . HTML文档中文显示; 在html_outputer.py中, 有两个地方: α:文件打开位置 源码:fout = open('output.html','w') 修改:fout = open('output.html','w', encoding='utf-8') β:HTML代码中,看到有人建议加:fout.write("<head><meta http-equiv='content-type' content='text/html;charset=utf-8'></head>"),实际上在本人实验中,加入与否并没有实质变化,本人建议如下: (1). 在课堂源码基础上,将data['title'].encode('utf-8)去掉,并在url的td标签后添加urllib.parse.unquote(data['url'],encoding='utf-8') 2 . URL匹配; new_full_url = urllib.parse.urljoin(page_url, new_url) 与源码没有变化,但需要提到的是视频中的url是以数字.html结尾,但实际上通过升级,新的URL已经发生了变化,但使用urllib.parse.urljoin()还是能够得到一个正确的URL。查看全部
-
分析目标查看全部
-
怎么做标签查看全部
-
Url查看全部
-
简单爬虫架构查看全部
-
网页下载器urllib2-用法2 注:add_header处将爬虫伪装成一个Mozilla浏览器查看全部
-
urllib2网页下载器方式1查看全部
-
简单爬虫架构查看全部
-
Beautiful Soup访问节点信息查看全部
-
Beautiful Soup 搜索节点的方法查看全部
-
beautifulSoup语法查看全部
-
特殊情境处理: 1.需要用户登录才能访问(HTTPCookieProcessor) 2.需要代理才能访问(ProxyHandler) 3.协议使用HTTPS加密访问(HTTPSHandler) 4.URL自动跳转(HTTPRedirectHandler)查看全部
举报
0/150
提交
取消