專 欄
❈
LucasX,Python中文社区专栏作者,Applied Machine Learning。
❈
前言
近年来,随着网民版权意识与对优质内容付费意愿的逐步兴起,2016开启了知识经济的元年。分答、得到App、知乎Live是其中最具代表性的产品。
知识经济是风口,于是大家一窝蜂地想来分一杯羹。以知乎Live为例,饱受诟病的是平台上大量低质量Live的产生,因此用户很容易被“收智商税”。
鉴于此,本文利用数据分析与机器学习的方法,来为知乎Live平台用户提供作为甄别低质量Live的方法。
训练机器学习算法需要用到大量带标记的数据,数据标签即可认为是该Live的评分;利用爬虫抓取知乎Live平台上已举办的Live信息,共计4433条,数据存储至MongoDB。本文主要成果如下:
1、利用爬取的数据训练机器学习回归模型,使其具备对待举办Live的得分自动预测。
2、利用清洗后的数据建立算法,计算知乎Live主讲人排行榜。
3、多维数据可视化
数据可视化
可以看到,教育、职业、互联网、金融与经济、生活方式 所占比重是最大的。 而商业、法律、设计、体育 相关领域的Live数量则相对较低。
去除评分为0(即评分人数不足)的数据,我们得到了知乎Live的分数区间分布。 可以看到,绝大多数还是处在 **右侧4分以上区域** ,一定程度上反映了听众对主讲人的认可。
Live单价方面,大多数主讲人将价格定在了 ¥9.99、¥19.99、¥19.00 ,整体价格处于较低的范围,容易形成比较广泛的受众。
性别方面,男性以绝对的优势领先,男女主讲人比例约为7:3。
通过对不同领域的Live评分进行统计得到平均分,我们发现, 体育、医学健康类的Live质量普遍较高;而商业相关的Live评分相对较低。
基于机器学习的Live得分自动预测
如果读者对机器学习这一科技领域目前最热的名词有所了解的话呢,就会知道对Live的打分可以视为一个回归问题,即对连续值的预测。
简而言之呢,就是从之前所有的知乎Live历史数据中进行学习,使算法能够对它在将来“看到”有举办的Live时,自动给出对该Live的预测得分。BTW,如果读者对机器学习不感兴趣,下面的这段描述可以暂且跳过吧~
我们利用pandas进行数据清洗(包括NAN值的填充处理、异常值的处理等等),归一化,提取特征。选择Ridge Regression模型,在没有进行细致的特征提取情况下,初步测试算法MAE值为0.3,效果还算看得过去,但依然还有提升空间;后期我们会逐步完善特征提取,并将最后 10-fold cross-validation 最佳结果训练得到的模型发布出来供大家甄别低质量Live。
主讲人排行榜
该部分主要介绍对已完结历史Live数据的分析,从而给出主讲人的排行榜单。考虑到知乎大V作为意见领袖的影响,以及可能的数据统计偏差。我们仅提取 评价人数>100人 作为统计样本。
以上是 TOP 25的 优质主讲人。其中, **@惊奇影像** 荣登榜首; **@数学建模老司机** 荣获优质主讲人亚军; **@魅惑蓝心** 荣获优质主讲人探花。
除了以上TOP 25以内的第一梯队得分在4.9分以上的优质主讲人,TOP 50以内的都是优质Live内容输出者;他们排名如上图所示。
上图为代表性的低质量Live及其主讲人,就不一一艾特了。
结语
知乎Live是个很好的平台,既可以让优质内容创作者可以得到相应的回报,又可以让初入某个领域的小白少走一些弯路。不管是作为某个领域的高手还是小白,谁都有刚入门时摸不着头脑的时候,但恰恰是刚入门的小白最容易被“成功人士收智商税”。因此本文的主要目的就是希望通过算法、对所有知乎Live的历史数据进行挖掘,能够给读者在甄别低质量Live的时候提供一些有用的信息。
另:关于算法、源码、数据、图表,由于目前算法还在逐步完善中,等调试出最佳结果后,过阵子会全部开放出来~
近期热门文章:
长按扫描关注Python中文社区,
获取更多技术干货!
Python 中 文 社 区
Python中文开发者的精神家园
合作、投稿请联系微信:
pythonpost
— 人生苦短,我用Python —
1MEwnaxmMz7BPTYzBdj751DPyHWikNoeFS