为了账号安全,请及时绑定邮箱和手机立即绑定
首页 手记 慕课网上谁的粉丝最多?

慕课网上谁的粉丝最多?

2019.08.16 14:39 6491浏览


01 

怎么想到的

某天,看着自己的粉丝,2w多了耶。

https://img2.sycdn.imooc.com/5d564559000187b619940382.png

2w多是个什么水平呢?不会是第一吧?

自恋的心情,紧张的双手,我决定来揭开这个谜底!


02

爬数据

https://www.imooc.com/t/4559066 

最后一位是uid,自增的,从1开始遍历,不就能获取到所有用户的粉丝数了么。

从哪爬呢?

pc端是可以爬取的,粉丝数就在html源码里。

https://img4.sycdn.imooc.com/5d564d320001e1fb12340592.png

但是我强烈不建议!因为要解析html源码,正则处理。

像我这么懒的人,最喜欢的当然是返回json格式的接口。

通常来说,h5端,app端,都是返回json格式的接口。

but,找了一圈,没找到需要的接口,只能用pc端了,正则解析。


03

遇到了困难

  1. 慕课网用户数据量太大了。。。我开了10个线程,都没爬完

  2. 普通用户的粉丝量远低于慕课网讲师的粉丝,以下是我爬取部分数据排序后的结果

https://img3.sycdn.imooc.com/5d564ce50001986e04880564.png

调整策略,只抓取实战课讲师的粉丝!

每一门实战课程页面都会有讲师的信息。

https://coding.imooc.com/class/117.html

https://img3.sycdn.imooc.com/5d564dbb0001381023521320.png

遍历所有实战课 -> 讲师uid -> 粉丝数

04

数据整理

爬下来的数据是无序的

https://img1.sycdn.imooc.com/5d564e2e0001d81a06280418.png

怎么排序呢,写入数据库?excel?

推荐使用linux下自带的sort或者awk命令,awk命令更加强大,这里sort命令已经满足需求了。

第2列从小到大排序

cat imoocFans.txt | sort -t, -k2 -n

https://img1.sycdn.imooc.com/5d564ec30001d30e06881014.png

我的妈耶,我居然能排在第2!第一是谁?

恭喜以下3位讲师(*^▽^*)

https://img4.sycdn.imooc.com/5d564f2e0001f9bb03960414.png

https://img2.sycdn.imooc.com/5d564f5600010e0403500408.png

https://img4.sycdn.imooc.com/5d564f400001697403420408.png

数据抓取时间:2019.08.16 14:39

点击查看更多内容

本文首次发布于慕课网 ,转载请注明出处,谢谢合作

48人点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
JAVA开发工程师
手记
粉丝
2.3万
获赞与收藏
1680

关注TA,一起探索更多经验知识

同主题相似文章浏览排行榜

风间影月说签约讲师

50篇手记,涉及Java、MySQL、Redis、Spring等方向

进入讨论

Tony Bai 说签约讲师

142篇手记,涉及Go、C、Java、Python等方向

进入讨论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消