大数据告诉你，知乎Live哪家强？ - 文章 - 开发者社区

專欄

picture.image

❈

LucasX，Python中文社区专栏作者，Applied Machine Learning。

❈

前言

    近年来，随着网民版权意识与对优质内容付费意愿的逐步兴起，2016开启了知识经济的元年。分答、得到App、知乎Live是其中最具代表性的产品。  
    知识经济是风口，于是大家一窝蜂地想来分一杯羹。以知乎Live为例，饱受诟病的是平台上大量低质量Live的产生，因此用户很容易被“收智商税”。  
    鉴于此，本文利用数据分析与机器学习的方法，来为知乎Live平台用户提供作为甄别低质量Live的方法。  

    训练机器学习算法需要用到大量带标记的数据，数据标签即可认为是该Live的评分；利用爬虫抓取知乎Live平台上已举办的Live信息，共计4433条，数据存储至MongoDB。本文主要成果如下：  

    1、利用爬取的数据训练机器学习回归模型，使其具备对待举办Live的得分自动预测。   
    2、利用清洗后的数据建立算法，计算知乎Live主讲人排行榜。   
    3、多维数据可视化

数据可视化

picture.image

    可以看到，教育、职业、互联网、金融与经济、生活方式 所占比重是最大的。 而商业、法律、设计、体育 相关领域的Live数量则相对较低。

picture.image

    去除评分为0（即评分人数不足）的数据，我们得到了知乎Live的分数区间分布。 可以看到，绝大多数还是处在  **右侧4分以上区域** ，一定程度上反映了听众对主讲人的认可。

picture.image

    Live单价方面，大多数主讲人将价格定在了 ￥9.99、￥19.99、￥19.00 ，整体价格处于较低的范围，容易形成比较广泛的受众。

picture.image

    性别方面，男性以绝对的优势领先，男女主讲人比例约为7:3。

picture.image

    通过对不同领域的Live评分进行统计得到平均分，我们发现， 体育、医学健康类的Live质量普遍较高；而商业相关的Live评分相对较低。

基于机器学习的Live得分自动预测

    如果读者对机器学习这一科技领域目前最热的名词有所了解的话呢，就会知道对Live的打分可以视为一个回归问题，即对连续值的预测。  

    简而言之呢，就是从之前所有的知乎Live历史数据中进行学习，使算法能够对它在将来“看到”有举办的Live时，自动给出对该Live的预测得分。BTW，如果读者对机器学习不感兴趣，下面的这段描述可以暂且跳过吧~  

    我们利用pandas进行数据清洗（包括NAN值的填充处理、异常值的处理等等），归一化，提取特征。选择Ridge Regression模型，在没有进行细致的特征提取情况下，初步测试算法MAE值为0.3，效果还算看得过去，但依然还有提升空间；后期我们会逐步完善特征提取，并将最后 10-fold cross-validation 最佳结果训练得到的模型发布出来供大家甄别低质量Live。

主讲人排行榜

    该部分主要介绍对已完结历史Live数据的分析，从而给出主讲人的排行榜单。考虑到知乎大V作为意见领袖的影响，以及可能的数据统计偏差。我们仅提取 评价人数>100人 作为统计样本。

picture.image

    以上是 TOP 25的 优质主讲人。其中，  **@惊奇影像** 荣登榜首；  **@数学建模老司机** 荣获优质主讲人亚军；  **@魅惑蓝心** 荣获优质主讲人探花。

picture.image

    除了以上TOP 25以内的第一梯队得分在4.9分以上的优质主讲人，TOP 50以内的都是优质Live内容输出者；他们排名如上图所示。

picture.image

    上图为代表性的低质量Live及其主讲人，就不一一艾特了。

结语

    知乎Live是个很好的平台，既可以让优质内容创作者可以得到相应的回报，又可以让初入某个领域的小白少走一些弯路。不管是作为某个领域的高手还是小白，谁都有刚入门时摸不着头脑的时候，但恰恰是刚入门的小白最容易被“成功人士收智商税”。因此本文的主要目的就是希望通过算法、对所有知乎Live的历史数据进行挖掘，能够给读者在甄别低质量Live的时候提供一些有用的信息。  

    另：关于算法、源码、数据、图表，由于目前算法还在逐步完善中，等调试出最佳结果后，过阵子会全部开放出来~

近期热门文章：

手把手教你用1行代码实现人脸识别

用Python分析股市指数

用Python对鹿晗、关晓彤微博进行情感分析

Python元编程：控制你想控制的一切

五分钟入门Python自然语言处理（一）

picture.image