Python爬虫之微博评论爬取

專 欄

picture.image

罗罗攀 ,Python中文社区专栏作者

专栏地址:

http://www.jianshu.com/u/9104ebf5e177

提交Cookie信息模拟微博登录

需要爬取登录之后的信息,大家都是望而止步,不要担心,今天呢,给大家提供一个超级简单的方法,就是提交Cookie信息登录微博,首先,我们找到某明星的微博网址: http://m.weibo.cn/u/1732927460 这里是登录的移动端,你会发现,你点击网址会自动跳转到登录微博的界面(没有跳转的注销掉自己的账号),如下图所示:

picture.image

然后登录自己的账号密码,这时记得打开Fiddler进行抓包,如图所示,提取Cookie做为请求某明星微博网址的请求头即可。

picture.image

异步加载数据如何爬取

我在网上看过移动端的微博数据很好爬,没有异步加载,可是不知道为什么,我的评论数据就是异步加载的,其实异步加载不可怕,找到相应js包即可,如下图为某明星的一条微博和评论的js包。我们只需请求这个js数据,然后利用json库即可提取我们所需的评论数据。

picture.image

picture.image

代码

picture.image

爬取的数据导入数据库后又导出为csv格式进行分析

词云制作及分析

picture.image

可以说支持的评论更多一些:例如爱你,喜欢,坚强等等;不过也有不少的恶意评论:黑,恶心,讨厌等。

总结

1、Cookie提交是一个简单不错的选择,但Cookie信息隐藏着隐私,大家千万别暴露在外面,以防外人所利用。
2、异步加载不可怕,找包有技巧,有id,vid等字段的嫌疑最大,多练习就行。


picture.image

长按扫描关注Python中文社区,

获取更多技术干货!

Python 中 文 社 区

Python中文开发者的精神家园

合作、投稿请联系微信:

pythonpost

— 人生苦短,我用Python —
1MEwnaxmMz7BPTYzBdj751DPyHWikNoeFS

本文为作者原创作品,未经作者授权同意禁止转载


本社区计划在北京、上海、深圳、广州、香港、杭州、成都、南京、武汉、西安十座城市设立城市俱乐部,以方便同城的Python开发者进行更加深入的交流,同时也为方便以后举办线上线下的活动,欢迎大家加入! 请直接添加工作人员微信:pythonpost并注明所在城市申请即可。

picture.image

0
0
0
0
评论
未登录
暂无评论