Python通过抓包和使用cookie爬取微博完全讲解(附视频)

小程序云存储容器

專 欄

picture.image

邓旭东 ,Python中文社区专栏作者。
简书:

http://www.jianshu.com/u/1562c7f16a04

今天给大家录制了一个爬新浪微博的爬虫,也用到了抓包分析网址,但相较于以前,单纯的使用抓包分析网址在新浪微博是无效的。

cookie是什么

某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。目前有些 Cookie 是临时的,有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定的时间,一旦超过规定的时间,该 Cookie 就会被系统清除。持续的 Cookie 则保存在用户的 Cookie 文件中,下一次用户返回时,仍然可以对它进行调用。

注意:

微博中的cookie有时间限制,如果运行有问题,可以更换下cookie

如何使用cookie


      1. `Cookie = {‘Cookie’: ’UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6; remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2; CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}`


    

我们要构造成字典格式,如上。这样应用到请求网址的时候添加到请求头中去即可(不懂也没关系,继续往下看,有视频讲说的)。

requests库

rquests is an elegant and simple HTTP library for Python, built for human beings. Requests是一个优雅简洁的Python HTTP库,给人类使用。

使用方法如下:

r=requests.get(url,cookiess = Cookie)

实战分析

picture.image

picture.image

那么我们打开开发者工具,抓包分析下网址验证我们的网址规律思路

抓包分析

picture.image

picture.image

picture.image

picture.image

接下来我只是测试下,抓孔庆东微博博文的标题,如下图红色方框对应的html标签是h4

picture.image

代码及运行图部分

picture.image

本文视频讲解如下:


3月24日本周五21:00—22:00第三期PyLive开播 本文作者将与大家一起分享 Python网络爬虫的基础知识 ,长按下方二维码扫描进入直播间,欢迎参加!作者将与大家分享以下内容:

picture.image

picture.image

picture.image

欢迎加入

Python中文社区

小密圈

picture.image

Python 中 文 社 区

Python中文开发者的精神家园

合作、投稿请联系微信:

AndyWong188

— 人生苦短,我用Python —

点击阅读原文可领取PyLive优惠券

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
KubeZoo: 轻量级 Kubernetes 多租户方案探索与实践
伴随云原生技术的发展,多个租户共享 Kubernetes 集群资源的业务需求应运而生,社区现有方案各有侧重,但是在海量小租户的场景下仍然存在改进空间。本次分享对现有多租户方案进行了总结和对比,然后提出一种基于协议转换的轻量级 Kubernetes 网关服务:KubeZoo,该方案能够显著降低多租户控制面带来的资源和运维成本,同时提供安全可靠的租户隔离性。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论