二次元属性被稀释,B站多了魔幻现实?

技术

picture.image

作者简介
HeoiJin:立志透过数据看清世界的产品策划,专注爬虫、数据分析、产品策划领域。
万物皆营销 | 资本永不眠 | 数据恒真理
CSDN:https://me.csdn.net/weixin\_40679090

一、前言

本篇章为用 Python 分析B站的变化系列篇的 下篇 。在上篇当中我们已经完成了数据的采集,那么本篇将着重对采集到的数据进行对比分析及可视化。

二、项目特色

  1. 利用pandas库对数据进行分类聚合

  2. 利用pyecharts和帆某的Bi软件对数据进行可视化实战

  3. 结合DT财经的数据分析B站2019至2020的变化

三、项目准备

  • 语言:Python 3.7

  • IDE :Pycharm

  • 浏览器:Chrome

  • 插件:ChromeDriver

  • 库:Pandas、pyecahrts、snapshot_selenium

  • 其他:Fine Bi

四、问题定义

4.1 关键词定义

在进行分析前,要先确认什么是二次元和三次元,具体通过什么标准进行划分。

二次元 」一词来自于日语「二次元(にじげん)」,本义为「二维」,引申为「在纸面、屏幕等平面上展示的动画、游戏等作品中角色」。「 三次元 (さんじげん)」也被引申用来指现实中的人物。——萌娘百科 二次元 :动画(Animations即ACG的A)、漫画(Comics即ACG的C)、游戏(Games即ACG的G)。 三次元 :现实世界。——维基百科

即在爬取的所有分区当中,可以明显归类为二/三次元的分区分别是: 二次元 :动画、国创相关、游戏
三次元 :科技、数码、生活、时尚、娱乐

其余的鬼畜、舞蹈、音乐、影视则因为兼备二次元和三次元的属性,定义为2.5次元[滑稽]。

4.2 确立目标

完成对分区进行属性划分之后,就可以开始确立研究目标:

  • 分析B站综合评分前100中, 什么分区是占比最多? 用户在不同分区的行为情况如何。

  • 分析B站各分区情况,找出各分区的 播放量 情况及 用户行为 情况

  • 分析 热门标签变化

  • 针对B站变化,洞悉背后的行为和心理本质

五、数据分析实战

5.1 数据预清洗

在进入正式的分析之前,先使用 df.info()了解下抓取到的数据情况。
picture.image 通过上面打印数据可看出:共有 14列、1300行 ,没有缺失值。 但要注意的是 ,这里我们先把全站榜排除在外,避免重复计算,后面的分析都基于下面得出的数据df_without_all。


        
  `#波浪线~表示不选取该部分`
  `df_without_all=df[~df['rank_tab'].isin(['全站'])]`
 
      

5.2 全站综合评分top100系列

5.2.1各分区占比情况可视化

数据处理思路及核心代码:

  • 对df_without_all按综合评分降序,切片取前100项
  • 获取分区名列,统计每个分区出现次数

picture.image 得到一个分区 名为index,频次为values的Series。

picture.image

接下来使用pyecahrts的玫瑰图进行可视化处理。

相比于Excel或者Fine Bi,pyecahrts的玫瑰图制作非常友好,而且颜值方面也不错。

核心代码:

picture.image

picture.image

在未找到2019年相关播放量的官方数据情况下,暂与2018年的财报数据进行比较。

经比对,生活、动画的排名分别提升至第1名和2名, 可以说动画依旧是B站比较重要的一部分

而娱乐、游戏、科技跌出榜单,时尚、鬼畜、音乐成为新秀, 总体看完全属于二次元的视频占比较低,仅占27%

5.2.2各分区平均情况数据处理

数据处理思路及核心代码:

  • 对df_without_all按照综合评分进行降序排序,并获取前100项

  • 以分类名作为行索引对DataFrame进行分组,求出平均数

picture.image

picture.image

对数据进行处理完成之后, 分为三部分进行可视化

  1. 播放情况分析
  2. 平均三连情况可视化及分析
  3. 平均评论、弹幕、转发量情况可视化及分析

5.2.3 平均播放量情况可视化及分析

只需要 分类名 作为维度, 平均播放量 作为指标即可。 对单维度单指标进行可视化时,可以有柱状图、折线图、面积图等多种选择,这里我选择其中的柱状图进行可视化。

思路和核心代码:

  • 获取数据,构建分类名和平均播放量的列表

  • 创建柱状图,并加入Javascript语句制作渐变色

picture.image

picture.image

动画区以微弱的优势超过时尚区成为平均播放量的top1,是否意味着二次元依旧是B站的主场?

并不然,回看动画区的详细数据,按播放量进行降序,可以看到,排名第一的《【哔哩哔哩2020拜年祭】》播放量是排名第二的5.74倍。

而时尚区的前两名仅为1.6倍,即动画区的播放量被平均。

picture.image

5.2.4 平均三连情况可视化及分析

投币、 点赞和收藏行为的计量单位为人数,相对于播放量以人次作为计量单位,更能精准地反映用户喜好情况。这里使用pyecharts的雷达图进行可视化。

核心代码:

picture.image

picture.image

尽管动画区存在黑马视频,但 生活区平均投币和点赞量依然高于动画区

5.2.5 平均评论、弹幕、转发量情况可视化及分析

pyecahrts的混合图表在代码实现上复杂,比较于Fine Bi,性价比极低 。因此这部分使用Fine Bi进行数据的可视化,不多赘述,直接上图。
picture.image

动画区的平均弹幕量表现很不错,但是评论量和分享则表现平平。话题性和自传播性的高门槛, 导致二次元无法如三次元一样具有爆发性增长的能力 。 在部分增长速度低于整体增长速度时,必然看到B站二次元属性被稀释的现象。

5.3 各区top100系列

以上,只针对了综合评分前100的数据进行初步的分析,为避免出现幸存者误差的逻辑谬误,下面将对所有分区的top100进一步的分析,并联系DT财经数据进行对比分析。

5.3.1数据预处理

处理思路

  • 对df_without_all按分区名进行分类

  • 统计出每个分区各情况数据的均值

  • 存入csv

picture.image

5.3.2 播放量均值情况

思路及核心代码:

  • 读取分区名和播放量数据

  • 对播放量数据进行缩放

  • 绘制折线图表

picture.image

picture.image

对比DT财经在2019年的数据 ,除去我们没有采集到放映厅、番剧、广告分区, 生活区依然是B站播放量的巨头

动漫区因拜年祭的火热,由第三升至第二。值得注意的是,各分区top100的平均播放量,相对于19年的数据都有大幅度的增长,生活区热门视频的平均播放量翻了两番。

5.3.3 用户行为数据均值对比

pyecharts折线图的制作方式已在上文提及,那么这部分的可视化就交由Bi软件帮我们完成,不多展开。
picture.image
继续与DT财经的数据进行对比,除去番剧、放映厅和广告区,在DT财经的各项数据指标中,几乎是动画区一家独大。 而到了2020年,则能看到百花齐放的现状,二次元在不同指标的龙头地位都被各三次元分区瓜分, 生活区更是拿到了多数指标的头把交椅

5.4 热门标签

同样在处理数据之前,先了解下数据结构是怎么样的。
picture.image
观察可知每一项数据里面包含了N个标签,因此,需要将标签列先转化为一个无嵌套的Series,后统计每一个唯一标签出现的次数。 核心代码:
picture.image
picture.image
对比于DT财经统计的2019年3至4月热门视频的标签频次统计,历时一年后, 搞笑依然是B站热门视频中出现频率最多的标签 ,鬼畜也依旧在显眼位置。 从今年的词云中能找到不少与生活密切关联的标签,有我们正在经历的抗击肺炎大作战,也有每次都订立目标,但总是败给吃吃吃的瘦身塑形和减肥。

六、项目总结

创立十载的B站,发展成仅APP的DAU就高达3千3百万的大平台。从二次元社区到综合视频社区,原有的二次元属性必被稀释。 回归到最初的问题: 1、二次元属性的稀释情况如何?
二次元依然是B站核心的组成部分。但从B站的商业布局来看,直播线、综艺线、Vlog线等更多贴合生活的内容将进一步稀释二次元属性。 2、什么分区是B站的龙头?
拥有更广受众面的生活区逐步成为B站主流,而且这种趋势会更加明显。在大众传播学提出过这么一个理论——沉默的螺旋:即大众的更大众,小众的更小众,传播学中的马太效应。

3、B站的主流用户喜欢什么标签的视频?

搞笑依旧是B站用户最热爱的标签。毕竟在残酷的社会环境中,幽默是稀缺的资源。

4、本次分析带来什么思考? B站从二次元成功转型为综合型网站,获得腾讯、阿里等巨头投资成功上市,而处于寒冬的我们,也要不断地增值升级,才能迎来暖春。

最后希望B站能越来越好,不忘初心!

源码地址(或阅读原文): https://github.com/heoijin/Bilibili-Rnak

郑重声明: 本项目及所有相关文章,仅用于经验技术交流,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。

参考文献:

1、《数据解读 | 我们研究了B站,发现它很不“二次元”》-DT财经: https://mp.weixin.qq.com/s/EObWtXz1yxsZhvZQVKnk3g

2、 2020中国移动互联网“战疫”专题报告- QuestMobile2020:https://www.questmobile.com .cn/research/report-new/81

3、 产品分析报告|B站,从二次元社区到综合视频社区- FMR:http://www.woshipm.com/evaluating/2102696.html

投稿邮箱:pythonpost@163.com

picture.image

投稿 点击阅读原文

喜欢文章,点个 在看

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
拥抱云原生,下一代边缘云云基础设施 | 第 11 期边缘云主题Meetup
《拥抱云原生,下一代边缘云云基础设施》郭少巍|火山引擎边缘云边缘计算架构师
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论