为了账号安全,请及时绑定邮箱和手机立即绑定

二次元属性被稀释,B站还剩什么?| 数据分析

标签:
Python 大数据

本篇目录

https://img3.sycdn.imooc.com/5e6369ab0001212503080606.jpg

一、前言

本篇章为《二次元属性被稀释,B站还剩什么?》系列篇的下篇。在上篇当中我们已经完成了数据的采集,那么本篇将着重对采集到的数据进行对比分析及可视化。

二、项目特色

  1. 利用pandas库对数据进行分类聚合
  2. 利用pyecharts和帆某的Bi软件对数据进行可视化实战
  3. 结合DT财经的数据分析B站2019至2020的变化

三、项目准备

  • 语言:Python 3.7
  • IDE :Pycharm
  • 浏览器:Chrome
  • 插件:ChromeDriver
  • 库:Pandas、pyecahrts、snapshot_selenium
  • 其他:Fine Bi

四、问题定义

4.1 关键词定义

在进行分析前,要先确认什么是二次元和三次元,具体通过什么标准进行划分。
二次元」一词来自于日语「二次元(にじげん)」,本义为「二维」,引申为「在纸面、屏幕等平面上展示的动画、游戏等作品中角色」。「三次元(さんじげん)」也被引申用来指现实中的人物。——萌娘百科二次元:动画(Animations即ACG的A)、漫画(Comics即ACG的C)、游戏(Games即ACG的G)。三次元:现实世界。——维基百科
即在爬取的所有分区当中,可以明显归类为二/三次元的分区分别是:二次元:动画、国创相关、游戏
三次元:科技、数码、生活、时尚、娱乐
其余的鬼畜、舞蹈、音乐、影视则因为兼备二次元和三次元的属性,定义为2.5次元[滑稽]。

4.2 确立目标

完成对分区进行属性划分之后,就可以开始确立研究目标:
  • 分析B站综合评分前100中,什么分区是占比最多?用户在不同分区的行为情况如何。
  • 分析B站各分区情况,找出各分区的播放量情况及用户行为情况
  • 分析热门标签变化
  • 针对B站变化,洞悉背后的行为和心理本质

五、数据分析实战

5.1 数据预清洗

在进入正式的分析之前,先使用 df.info()了解下抓取到的数据情况。
https://img1.sycdn.imooc.com/5e6369ad0001798d03400388.jpg通过上面打印数据可看出:共有14列、1300行,没有缺失值。但要注意的是,这里我们先把全站榜排除在外,避免重复计算,后面的分析都基于下面得出的数据df_without_all。
#波浪线~表示不选取该部分df_without_all=df[~df['rank_tab'].isin(['全站'])]

5.2 全站综合评分top100系列

5.2.1各分区占比情况可视化

数据处理思路及核心代码:对df_without_all按综合评分降序,切片取前100项获取分区名列,统计每个分区出现次数

https://img1.sycdn.imooc.com/5e6369ae000135f210170301.jpg得到一个分区名为index,频次为values的Series。

https://img3.sycdn.imooc.com/5e6369ae0001bd4702620186.jpg

接下来使用pyecahrts的玫瑰图进行可视化处理。相比于Excel或者Fine Bi,pyecahrts的玫瑰图制作非常友好,而且颜值方面也不错。核心代码:
https://img1.sycdn.imooc.com/5e6369ae0001893509040526.jpg

https://img3.sycdn.imooc.com/5e6369ae00012c3f10800400.jpg
在未找到2019年相关播放量的官方数据情况下,暂与2018年的财报数据进行比较。
经比对,生活、动画的排名分别提升至第1名和2名,可以说动画依旧是B站比较重要的一部分。而娱乐、游戏、科技跌出榜单,时尚、鬼畜、音乐成为新秀,总体看完全属于二次元的视频占比较低,仅占27%

5.2.2各分区平均情况数据处理

数据处理思路及核心代码:
  • 对df_without_all按照综合评分进行降序排序,并获取前100项
  • 以分类名作为行索引对DataFrame进行分组,求出平均数
https://img3.sycdn.imooc.com/5e6369ae0001acf308920255.jpg
https://img1.sycdn.imooc.com/5e6369ae000182d106210484.jpg对数据进行处理完成之后,分为三部分进行可视化
  1. 播放情况分析
  2. 平均三连情况可视化及分析
  3. 平均评论、弹幕、转发量情况可视化及分析

5.2.3 平均播放量情况可视化及分析

只需要分类名作为维度,平均播放量作为指标即可。对单维度单指标进行可视化时,可以有柱状图、折线图、面积图等多种选择,这里我选择其中的柱状图进行可视化。思路和核心代码:
  • 获取数据,构建分类名和平均播放量的列表
  • 创建柱状图,并加入Javascript语句制作渐变色
https://img4.sycdn.imooc.com/5e636a0b000178c710450692.jpg
https://img1.sycdn.imooc.com/5e6369ae0001c95610800601.jpg
动画区以微弱的优势超过时尚区成为平均播放量的top1,是否意味着二次元依旧是B站的主场?并不然,回看动画区的详细数据,按播放量进行降序,可以看到,排名第一的《【哔哩哔哩2020拜年祭】》播放量是排名第二的5.74倍。
而时尚区的前两名仅为1.6倍,即动画区的播放量被平均。
https://img3.sycdn.imooc.com/5e6369af0001c4c910800362.jpg

5.2.4 平均三连情况可视化及分析

投币、 点赞和收藏行为的计量单位为人数,相对于播放量以人次作为计量单位,更能精准地反映用户喜好情况。这里使用pyecharts的雷达图进行可视化。核心代码:
https://img3.sycdn.imooc.com/5e6369ed0001c9d608090727.jpghttps://img2.sycdn.imooc.com/5e6369ed0001ea0110800792.jpg
尽管动画区存在黑马视频,但生活区平均投币和点赞量依然高于动画区

5.2.5 平均评论、弹幕、转发量情况可视化及分析

pyecahrts的混合图表在代码实现上复杂,比较于Fine Bi,性价比极低。因此这部分使用Fine Bi进行数据的可视化,不多赘述,直接上图。
https://img2.sycdn.imooc.com/5e6369ed000164bb10800654.jpg
动画区的平均弹幕量表现很不错,但是评论量和分享则表现平平。话题性和自传播性的高门槛,导致二次元无法如三次元一样具有爆发性增长的能力。在部分增长速度低于整体增长速度时,必然看到B站二次元属性被稀释的现象。

5.3 各区top100系列

以上,只针对了综合评分前100的数据进行初步的分析,为避免出现幸存者误差的逻辑谬误,下面将对所有分区的top100进一步的分析,并联系DT财经数据进行对比分析。

5.3.1数据预处理

处理思路
  • 对df_without_all按分区名进行分类
  • 统计出每个分区各情况数据的均值
  • 存入csv
https://img1.sycdn.imooc.com/5e6369ee0001b1a809280172.jpg

5.3.2 播放量均值情况

思路及核心代码:
  • 读取分区名和播放量数据
  • 对播放量数据进行缩放
  • 绘制折线图表
https://img1.sycdn.imooc.com/5e6369ee0001f91810570571.jpg

https://img4.sycdn.imooc.com/5e6369ee0001439910800421.jpg

对比DT财经在2019年的数据,除去我们没有采集到放映厅、番剧、广告分区,生活区依然是B站播放量的巨头。动漫区因拜年祭的火热,由第三升至第二。值得注意的是,各分区top100的平均播放量,相对于19年的数据都有大幅度的增长,生活区热门视频的平均播放量翻了两番。

5.3.3 用户行为数据均值对比

pyecharts折线图的制作方式已在上文提及,那么这部分的可视化就交由Bi软件帮我们完成,不多展开。
https://img1.sycdn.imooc.com/5e6369ee0001486210800676.jpg
继续与DT财经的数据进行对比,除去番剧、放映厅和广告区,在DT财经的各项数据指标中,几乎是动画区一家独大。而到了2020年,则能看到百花齐放的现状,二次元在不同指标的龙头地位都被各三次元分区瓜分,生活区更是拿到了多数指标的头把交椅

5.4 热门标签

同样在处理数据之前,先了解下数据结构是怎么样的。
https://img2.sycdn.imooc.com/5e6369ee0001be0b07430388.jpg
观察可知每一项数据里面包含了N个标签,因此,需要将标签列先转化为一个无嵌套的Series,后统计每一个唯一标签出现的次数。核心代码:
https://img1.sycdn.imooc.com/5e6369ef0001342d06090255.jpg
https://img1.sycdn.imooc.com/5e6369ef0001796510800506.jpg
对比于DT财经统计的2019年3至4月热门视频的标签频次统计,历时一年后,搞笑依然是B站热门视频中出现频率最多的标签,鬼畜也依旧在显眼位置。从今年的词云中能找到不少与生活密切关联的标签,有我们正在经历的抗击肺炎大作战,也有每次都订立目标,但总是败给吃吃吃的瘦身塑形和减肥。

六、项目总结

创立十载的B站,发展成仅APP的DAU就高达3千3百万的大平台。从二次元社区到综合视频社区,原有的二次元属性必被稀释。回归到最初的问题:1、二次元属性的稀释情况如何?
二次元依然是B站核心的组成部分。但从B站的商业布局来看,直播线、综艺线、Vlog线等更多贴合生活的内容将进一步稀释二次元属性。2、什么分区是B站的龙头?
拥有更广受众面的生活区逐步成为B站主流,而且这种趋势会更加明显。在大众传播学提出过这么一个理论——沉默的螺旋:即大众的更大众,小众的更小众,传播学中的马太效应。3、B站的主流用户喜欢什么标签的视频?
搞笑依旧是B站用户最热爱的标签。毕竟在残酷的社会环境中,幽默是稀缺的资源。4、本次分析带来什么思考?
B站从二次元成功转型为综合型网站,获得腾讯、阿里等巨头投资成功上市,而处于寒冬的我们,也要不断地增值升级,才能迎来暖春。



点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消