为了账号安全,请及时绑定邮箱和手机立即绑定

这段爬虫代码哪里出问题?

这段爬虫代码哪里出问题?

Liaobaozai 2017-09-20 16:14:31
基本相同的代码在另一个网站爬取并没有问题。import requestsfrom bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36'}link = 'http://www.ziroom.com/z/nl/d23008618-b18335654.html'r = requests.get(link, headers = headers)soup = BeautifulSoup(r.text, 'lxml')house_list = soup.find_all('li', class_="clearfix")for house in house_list:    name = soup.find('div', class_='txt').a.text.strip()    price = soup.find('div', class_='priceDetail').p.text.strip()    area = soup.find('div', class_='detail').span.text.strip()    print (name, '\n', price,'\n', area)为什么爬取出来的信息只有一条?舒至嘉园1居室-北 ¥ 8260                                                        (每月) 69.21 ㎡舒至嘉园1居室-北 ¥ 8260                                                        (每月) 69.21 ㎡舒至嘉园1居室-北 ¥ 8260                                                        (每月) 69.21 ㎡舒至嘉园1居室-北 ¥ 8260                                                        (每月) 69.21 ㎡舒至嘉园1居室-北
查看完整描述

3 回答

?
慕函数9285021

TA贡献27条经验 获得超6个赞

帮你测试了一下,我采用的是html5lib的解析器,

打印的结果是没有问题的,估计是解析器的问题。

查看完整回答
反对 回复 2017-09-21
?
慕先生4543078

TA贡献52条经验 获得超38个赞

爬虫又不是通用的。别的网站能爬是你正确解析了它页面中的标签,换个class不就解析不了了么。

要是一个爬虫所有网站通用,我就下岗了。

查看完整回答
反对 回复 2017-09-21
?
颜鸿羽

TA贡献108条经验 获得超56个赞

应该是你遍历的时候出了问题吧!

查看完整回答
反对 回复 2017-09-20
  • Liaobaozai
    Liaobaozai
    元素并没有问题,所以我不明白哪里出错了
  • 颜鸿羽
    颜鸿羽
    我和你的不一样,我用lxml是解析不出来的!只能用html.parser解析出来,但是这样的话,差异很大的!所以我也帮不到你了!
  • 3 回答
  • 0 关注
  • 2440 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信