简介
基于numpy和bs4的豆瓣图书爬虫,可以分类爬取豆瓣读书300多万本图书信息,包括标题、作者、定价、页数、出版信息等
github地址: https://github.com/lanbing510/DouBanSpider
项目作者:lanbing510
1 可以爬下豆瓣读书标签下的所有图书
2 按评分排名依次存储
3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
步骤
1、安装pyenv后激活环境,并clone代码到本地环境,可参看Python中文社区知乎专栏文章:基于pyenv和virtualenv搭建python多版本虚拟环境
2、查看代码文档,vim打开doubanSpider.py,可以看出需要安装的模块有numpy、bs4等,用pip命令依次安装:pip install numpy bs4,标红色部分为处理编码问题。
3、向下我们可以看到为了针对反爬虫,需要伪装浏览器头部,以及设置抓取频率,主要抓取内容为图书标题、简介等
4、部署好环境,安装必需的模块后即可用python命令直接执行文件
**`python doubanSpider.py`**
5、查看抓取的内容
更多Python干货欢迎关注 微信公众号、知乎专栏:Python中文社区 ,致力于成为国内最好的Python开发者学习交流平台,这里有关于Python的国内外最新消息,每日推送有趣有料的技术干货和社区动态。
Python中文社区微信公众号:
Python中文社区QQ交流群:
Python各专业技术QQ交流群 :
Python中文社区:309365624
Python中文社区Git项目组:
477542380
Python网络爬虫组:206241755
Python数据分析挖掘组:539956362
Python高级技术交流:273186166
PythonWeb开发组:577672548
Python树莓派组:338456791
Python渗透测试组:274631467
Python量化交易策略组:264204289
Python自然语言处理组: 570364809
微信公众号:Python中文社区
知乎专栏:Python中文社区