为了账号安全,请及时绑定邮箱和手机立即绑定

Python 爬取喜马拉雅音频

标签:
Python

一、分析音频下载相关链接地址

1. 分析专辑音频列表页面

  在 PC端用 Chrome 浏览器中打开 喜马拉雅 网站,打开 Chrome开发者工具,随意打开一个音频专辑页面,Chrome开发者工具中返回如下图结果:

https://img1.sycdn.imooc.com//5b5d9d150001c86315460807.jpg

  经过分析专辑音频列表地址为

https://www.ximalaya.com/revision/album/getTracksList?albumId=12378382&pageNum=1

  其中:

  • albumId 专辑ID

  • pageNum 页号

  返回的页面内容是 json 格式,相比于 html 源码,json 还是很容易处理的,下载音频只需要用到如下参数:

  • tracks 音频信息列表

  • tracks -> title 音频标题

  • tracks -> trackId 音频ID

2. 分析音频下载链接地址

  随意播放一个音频,在Chrome开发者工具中返回如下图结果:

https://img1.sycdn.imooc.com//5b5d9cd50001f5db00150020.jpg

  经过分析专辑音频下载链接为

  其中

  • trackIds 音频ID

  返回的页面内容也是 JSON 格式,其中 tracksForAudioPlay 字段包含了音频的相关信息,其 src 就是音频下载地址。

  • src 音频下载链接

  • trackName 音频名称

  • trackId 音频ID

二、编写代码

1. 安装相关依赖模块

  本程序使用 requests 访问 web 页面,因此需要安装 requests 模块

pip install requests

2. 编写代码

  提取专辑内的音频列表信息,如下:

https://img1.sycdn.imooc.com//5b5d9cc50001e89c13881088.jpg

  提取音频下载地址,如下:

https://img1.sycdn.imooc.com//5b5d9cbb00019d1d14060830.jpg

  下载音频文件,如下:

https://img1.sycdn.imooc.com//5b5d9cb00001071714060646.jpg

  完整源码:

https://img1.sycdn.imooc.com//5b5d9ca0000146c422423664.jpg

原文出处:https://www.cnblogs.com/wuliqv/p/9386143.html

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消