大数据告诉你,知乎Live哪家强?

向量数据库大模型智能应用

專 欄

picture.image

LucasX,Python中文社区专栏作者,Applied Machine Learning。

前言

    近年来,随着网民版权意识与对优质内容付费意愿的逐步兴起,2016开启了知识经济的元年。分答、得到App、知乎Live是其中最具代表性的产品。  
    知识经济是风口,于是大家一窝蜂地想来分一杯羹。以知乎Live为例,饱受诟病的是平台上大量低质量Live的产生,因此用户很容易被“收智商税”。  
    鉴于此,本文利用数据分析与机器学习的方法,来为知乎Live平台用户提供作为甄别低质量Live的方法。  

    训练机器学习算法需要用到大量带标记的数据,数据标签即可认为是该Live的评分;利用爬虫抓取知乎Live平台上已举办的Live信息,共计4433条,数据存储至MongoDB。本文主要成果如下:  

    1、利用爬取的数据训练机器学习回归模型,使其具备对待举办Live的得分自动预测。   
    2、利用清洗后的数据建立算法,计算知乎Live主讲人排行榜。   
    3、多维数据可视化

数据可视化

picture.image

    可以看到,教育、职业、互联网、金融与经济、生活方式 所占比重是最大的。 而商业、法律、设计、体育 相关领域的Live数量则相对较低。  

picture.image

    去除评分为0(即评分人数不足)的数据,我们得到了知乎Live的分数区间分布。 可以看到,绝大多数还是处在  **右侧4分以上区域** ,一定程度上反映了听众对主讲人的认可。

picture.image

    Live单价方面,大多数主讲人将价格定在了 ¥9.99、¥19.99、¥19.00 ,整体价格处于较低的范围,容易形成比较广泛的受众。

picture.image

    性别方面,男性以绝对的优势领先,男女主讲人比例约为7:3。  

picture.image

    通过对不同领域的Live评分进行统计得到平均分,我们发现, 体育、医学健康类的Live质量普遍较高;而商业相关的Live评分相对较低。

基于机器学习的Live得分自动预测

    如果读者对机器学习这一科技领域目前最热的名词有所了解的话呢,就会知道对Live的打分可以视为一个回归问题,即对连续值的预测。  

    简而言之呢,就是从之前所有的知乎Live历史数据中进行学习,使算法能够对它在将来“看到”有举办的Live时,自动给出对该Live的预测得分。BTW,如果读者对机器学习不感兴趣,下面的这段描述可以暂且跳过吧~  

    我们利用pandas进行数据清洗(包括NAN值的填充处理、异常值的处理等等),归一化,提取特征。选择Ridge Regression模型,在没有进行细致的特征提取情况下,初步测试算法MAE值为0.3,效果还算看得过去,但依然还有提升空间;后期我们会逐步完善特征提取,并将最后 10-fold cross-validation 最佳结果训练得到的模型发布出来供大家甄别低质量Live。 

主讲人排行榜

    该部分主要介绍对已完结历史Live数据的分析,从而给出主讲人的排行榜单。考虑到知乎大V作为意见领袖的影响,以及可能的数据统计偏差。我们仅提取 评价人数>100人 作为统计样本。

picture.image

    以上是 TOP 25的 优质主讲人其中,  **@惊奇影像** 荣登榜首;  **@数学建模老司机** 荣获优质主讲人亚军;  **@魅惑蓝心** 荣获优质主讲人探花

picture.image

    除了以上TOP 25以内的第一梯队得分在4.9分以上的优质主讲人,TOP 50以内的都是优质Live内容输出者;他们排名如上图所示。

picture.image

    上图为代表性的低质量Live及其主讲人,就不一一艾特了。

结语

    知乎Live是个很好的平台,既可以让优质内容创作者可以得到相应的回报,又可以让初入某个领域的小白少走一些弯路。不管是作为某个领域的高手还是小白,谁都有刚入门时摸不着头脑的时候,但恰恰是刚入门的小白最容易被“成功人士收智商税”。因此本文的主要目的就是希望通过算法、对所有知乎Live的历史数据进行挖掘,能够给读者在甄别低质量Live的时候提供一些有用的信息。  

    另:关于算法、源码、数据、图表,由于目前算法还在逐步完善中,等调试出最佳结果后,过阵子会全部开放出来~

近期热门文章:

手把手教你用1行代码实现人脸识别

用Python分析股市指数

用Python对鹿晗、关晓彤微博进行情感分析

Python元编程:控制你想控制的一切

五分钟入门Python自然语言处理(一)


picture.image

长按扫描关注Python中文社区,

获取更多技术干货!

Python 中 文 社 区

Python中文开发者的精神家园

合作、投稿请联系微信:

pythonpost

— 人生苦短,我用Python —
1MEwnaxmMz7BPTYzBdj751DPyHWikNoeFS

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
基于火山引擎 EMR 构建企业级数据湖仓
火山引擎 EMR 是一款云原生开源大数据平台,提供主流的开源大数据引擎,加持了字节跳动内部的优化、海量数据处理的最佳实践。本次演讲将为大家介绍火山引擎 EMR 的架构及核心特性,如何基于开源架构构建企业级数据湖仓,同时向大家介绍火山 EMR 产品的未来规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论