为了账号安全,请及时绑定邮箱和手机立即绑定

requests获取到的网页内容与查看到的网页内容不一样,是有什么保护吗

requests获取到的网页内容与查看到的网页内容不一样,是有什么保护吗

ericguang 2018-02-07 13:55:20
抓取页面中评书下载地址,网页源码能看到每一个评书标题,href地址 但是requests获取的href全部为#,评书名全部为 请到pingshu8下载 请问哪位大神能指教一下?代码如下 import requests from bs4 import BeautifulSoup import lxml if __name__=='__main__':     url = 'http://www.pingshu8.com/MusicList/mmc_235_6576_1.Htm'     r = requests.get(url, timeout=30)     r.encoding = 'gb2312'     bs = BeautifulSoup(r.text, 'lxml')     pingshu_li = bs.find_all('li', class_='a1')     print(pingshu_li.__len__())     for i in range(0, pingshu_li.__len__() - 1):         name = pingshu_li[i].find('a').text         href = pingshu_li[i].find('a')['href']         print(name, href)
查看完整描述

3 回答

已采纳
?
Chasing_Cars

TA贡献3条经验 获得超0个赞

网页有动态渲染

可以用pantomjs+selenium模拟浏览器进行爬取

查看完整回答
反对 回复 2018-02-08
  • ericguang
    ericguang
    谢谢,已经用selenium取到数据。接下来准备看看pantomjs
?
拖鞋_

TA贡献453条经验 获得超223个赞

有JS  你直接读的文件  只能获得文档  JS代码是无法执行的 需要模拟浏览器环境 执行JS

查看完整回答
反对 回复 2018-02-07
  • ericguang
    ericguang
    多谢提醒,requests这样只适合抓静态网页
  • 3 回答
  • 0 关注
  • 2987 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信