已采纳回答 / 请叫我百度
第一:baike_spider是你创建的包,你所说的url_manager肯定是放在包中的代码,是可以import进去了。第二:只爬取一个网址就结束应该是html_parser中的代码有问题,比如课程中的匹配策略与现在的百度Python词条不匹配,需要改成href = re.compile(r"/item/.*") 再或者find_all 不要丢了下划线,我就没注意到下划线,所以只输出了1条记录就craw faild了。
2017-05-15
已采纳回答 / SiCheng_Sheen
我之前也遇到过这种情况,纠结了很久,最后才发现一个非常重要的问题,百度的词条信息发生了变化,你可以仔细看看,现在不再是以 .htm结尾了,之前在html_parser模块中的正则表达式已经失效了,原来是href=re.compile(r"/view/\d+\.htm"),现在应该改为href=re.compile(r'/item/\w+')。这也再次证明了在采集数据前,一定要对目标进行仔细认真的分析!
2017-05-05
最赞回答 / qq_我年轻_0
我也遇到了这个问题,很好解决。你们可以看一下任何一个网站的源码 例如本网站<...code...>他会有这一句句话 <meta charset="utf-8">这就是 html 编码的约束 。所以在 html_outputer.py 的这句话<...code...>前面 添加<...code...>output_html() 方法应为:<...code...>
2017-04-12
已采纳回答 / 逍遥游_xj
TypeError: __init__() got an unexpected keyword argument 'from_encoding'构造函数参数错误我猜你用的BeautifulSoup是BeautifulSoup3版本,3版本这个位置参数是:fromEncoding,你换这个参数名试一试
2017-04-04