用 Python 爬取『赘婿』视频弹幕

人工智能与算法智能应用

1

前言

最近爱奇艺独播热剧『 赘婿 』特别火,笔者也在一直追,借助手中的技术,想爬取弹幕分析该剧的具体情况以及网友的评论!

由于为了让小白 彻底学会 使用python爬取爱奇艺弹幕的技术,因此本文详细介绍如何进行爬取, 下文再进行分析数据

2

分析数据包

1.查找数据包

在浏览器里面按F12

picture.image

找到这类url


        
            

          https://cmts.iqiyi.com/bullet/54/00/7973227714515400\_60\_2\_5f3b2e24.br
        
      

2.分析弹幕链接

其中的/54/00/7973227714515400,才是有用的!!!!

爱奇艺的弹幕获取地址如下:

https: / /cmts.iqiyi.com/bullet/参数1 _300_参数2.z

参数1是:/54/00/7973227714515400

参数2是:数字1、2、3.....

爱奇艺每5分钟会加载新的弹幕,每一集约是46分钟,46除以5向上取整就是10

因此弹幕的链接如下:


          
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_1.z
          
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_2.z
          
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_3.z
          
......
          
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_10.z
      

3.解码二进制数据包

通过弹幕链接下载的弹幕包是 以z为后缀格式 的文件,需要进行解码!


          
def zipdecode(bulletold):
          
    '对zip压缩的二进制内容解码成文本'
          
    decode = zlib.decompress(bytearray(bulletold), 15 + 32).decode('utf-8')
          
    return decode
      

解码之后将数据保存成xml格式


          
# 把编码好的文件分别写入个xml文件中(类似于txt文件),方便后边取数据
          
  with open('./lyc/zx' + str(x) + '.xml', 'a+', encoding='utf-8') as f:
          
      f.write(xml)
      

picture.image

picture.image

3

解析xml

1.提取数据

picture.image

通过查看xml文件,我们需要提取的内容有 1.用户id (uid)、 2.评论内容 (content)、 3.评论点赞数 (likeCount)。


          
#读取xml文件中的弹幕数据数据
          
from xml.dom.minidom import parse
          
import xml.dom.minidom
          
def xml_parse(file_name):
          
    DOMTree = xml.dom.minidom.parse(file_name)
          
    collection = DOMTree.documentElement
          
    # 在集合中获取所有entry数据
          
    entrys = collection.getElementsByTagName("entry")
          
    print(entrys)
          
    result = []
          
    for entry in entrys:
          
        uid = entry.getElementsByTagName('uid')[0]
          
        content = entry.getElementsByTagName('content')[0]
          
        likeCount = entry.getElementsByTagName('likeCount')[0]
          
        print(uid.childNodes[0].data)
          
        print(content.childNodes[0].data)
          
        print(likeCount.childNodes[0].data)
      

picture.image

4

保存数据

1.保存前工作


          
import xlwt
          
# 创建一个workbook 设置编码
          
workbook = xlwt.Workbook(encoding = 'utf-8')
          
# 创建一个worksheet
          
worksheet = workbook.add_sheet('sheet1')
          

          
# 写入excel
          
# 参数对应 行, 列, 值
          
worksheet.write(0,0, label='uid')
          
worksheet.write(0,1, label='content')
          
worksheet.write(0,2, label='likeCount')
      

导入xlwt库(写入csv),并定义好标题(uid、content、likeCount)

2.写入数据


          
for entry in entrys:
          
    uid = entry.getElementsByTagName('uid')[0]
          
    content = entry.getElementsByTagName('content')[0]
          
    likeCount = entry.getElementsByTagName('likeCount')[0]
          
    print(uid.childNodes[0].data)
          
    print(content.childNodes[0].data)
          
    print(likeCount.childNodes[0].data)
          
    # 写入excel
          
    # 参数对应 行, 列, 值
          
    worksheet.write(count, 0, label=str(uid.childNodes[0].data))
          
    worksheet.write(count, 1, label=str(content.childNodes[0].data))
          
    worksheet.write(count, 2, label=str(likeCount.childNodes[0].data))
          
    count=count+1
      

最后保存成弹幕数据集-李运辰.xls


          
for x in range(1,11):
          
    l = xml_parse("./lyc/zx" + str(x) + ".xml")
          

          
# 保存
          
workbook.save('弹幕数据集-李运辰.xls')
      

picture.image

5

总结

picture.image

picture.image

通过 实战案

『赘婿』 ,手把手实现python爬取爱奇艺弹幕。

2.python解析xml格式数据。

3 .将数据写入excel。

更多阅读

2020 年最佳流行 Python 库 Top 10

2020 Python中文社区热门文章 Top 10

5分钟快速掌握 Python 定时任务框架

特别推荐

picture.image

picture.image

点击下方阅读原文加入 社区会员

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
KubeZoo: 轻量级 Kubernetes 多租户方案探索与实践
伴随云原生技术的发展,多个租户共享 Kubernetes 集群资源的业务需求应运而生,社区现有方案各有侧重,但是在海量小租户的场景下仍然存在改进空间。本次分享对现有多租户方案进行了总结和对比,然后提出一种基于协议转换的轻量级 Kubernetes 网关服务:KubeZoo,该方案能够显著降低多租户控制面带来的资源和运维成本,同时提供安全可靠的租户隔离性。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论