已采纳回答 / 蚂蚁帅帅
像百度、谷歌这样的搜索引擎,只需要爬去整个网页就可以了。如课程前面提到的,本节课的爬虫是垂直类爬虫,只会爬去特定的网站。所以,没错,是需要每个网站都要分析对应的格式的。
2016-09-29
最赞回答 / IT男的成长记录
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8') 改成小写试试
2016-09-27
已采纳回答 / 黑历史不删除后果很严重
建议你一步一步,逐个函数调试,光看源代码比较难找出错误所在,可以在每个方法打印是否成功运行,找到出错的方法后再找出错的变量。这样一定可以调试出来的,加油!
2016-09-27
最赞回答 / 慕标6571706
已经解决win7 python3.6 遇到乱码的情况同明磊只需要在fout = open('output.html', 'w', encoding = 'utf-8') fout.write("<td>%s</td>" % data['title']) fout.write("<td>%s</td>" % data['summary'])这里面不能加.encode('utf-8'),加了会乱码fout.write("<head><meta ...
2016-09-26
最新回答 / 慕粉3182733
fout.write("<td>%s</td>" % data['title'].encode('utf-8'))fout.write("<td>%s</td>" % data['summary'].encode('utf-8'))看看哪儿是不是写错了
2016-09-24
最新回答 / Ragnaros
http://baike.so.com/doc/1790119-1892991.html同样是分两部分 http://baike.so.com/doc/和1790119-1892991.html直接匹配后面的就可以 r'\d{7}-\d{7}\.html'
2016-09-22
已采纳回答 / Dreaman
已经解决啦 我在html_downloader下的read()后加了response.read().decode('utf8',errors='replace')把html_outputer里面的encode()去掉就好了
2016-09-21