一个抓取豆瓣图书的开源爬虫的详细步骤

火山方舟向量数据库大模型

简介

基于numpy和bs4的豆瓣图书爬虫,可以分类爬取豆瓣读书300多万本图书信息,包括标题、作者、定价、页数、出版信息等

github地址: https://github.com/lanbing510/DouBanSpider

项目作者:lanbing510

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封

步骤

1、安装pyenv后激活环境,并clone代码到本地环境,可参看Python中文社区知乎专栏文章:基于pyenv和virtualenv搭建python多版本虚拟环境

picture.image
2、查看代码文档,vim打开doubanSpider.py,可以看出需要安装的模块有numpy、bs4等,用pip命令依次安装:pip install numpy bs4,标红色部分为处理编码问题。

picture.image
3、向下我们可以看到为了针对反爬虫,需要伪装浏览器头部,以及设置抓取频率,主要抓取内容为图书标题、简介等

picture.image

picture.image

picture.image

4、部署好环境,安装必需的模块后即可用python命令直接执行文件

picture.image

picture.image


        **`python doubanSpider.py`**  
    

5、查看抓取的内容

picture.image

picture.image


更多Python干货欢迎关注 微信公众号、知乎专栏:Python中文社区 ,致力于成为国内最好的Python开发者学习交流平台,这里有关于Python的国内外最新消息,每日推送有趣有料的技术干货和社区动态。

Python中文社区微信公众号:

picture.image

Python中文社区QQ交流群:

picture.image

Python各专业技术QQ交流群

Python中文社区:309365624
Python中文社区Git项目组:

477542380
Python网络爬虫组:206241755
Python数据分析挖掘组:539956362
Python高级技术交流:273186166
PythonWeb开发组:577672548
Python树莓派组:338456791
Python渗透测试组:274631467
Python量化交易策略组:264204289
Python自然语言处理组: 570364809
微信公众号:Python中文社区
知乎专栏:Python中文社区

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论