一个抓取豆瓣图书的开源爬虫的详细步骤 - 文章 - 开发者社区

简介

基于numpy和bs4的豆瓣图书爬虫，可以分类爬取豆瓣读书300多万本图书信息，包括标题、作者、定价、页数、出版信息等

github地址： https://github.com/lanbing510/DouBanSpider

项目作者：lanbing510

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封

步骤

1、安装pyenv后激活环境，并clone代码到本地环境，可参看Python中文社区知乎专栏文章：基于pyenv和virtualenv搭建python多版本虚拟环境

picture.image
2、查看代码文档，vim打开doubanSpider.py，可以看出需要安装的模块有numpy、bs4等，用pip命令依次安装：pip install numpy bs4，标红色部分为处理编码问题。

picture.image
3、向下我们可以看到为了针对反爬虫，需要伪装浏览器头部，以及设置抓取频率，主要抓取内容为图书标题、简介等

picture.image

4、部署好环境，安装必需的模块后即可用python命令直接执行文件

picture.image


        **`python doubanSpider.py`**

5、查看抓取的内容

picture.image

更多Python干货欢迎关注 微信公众号、知乎专栏：Python中文社区 ，致力于成为国内最好的Python开发者学习交流平台，这里有关于Python的国内外最新消息，每日推送有趣有料的技术干货和社区动态。

Python中文社区微信公众号：

picture.image

Python中文社区QQ交流群：

picture.image

Python各专业技术QQ交流群 ：

Python中文社区：309365624
Python中文社区Git项目组：

477542380
Python网络爬虫组：206241755
Python数据分析挖掘组：539956362
Python高级技术交流：273186166
PythonWeb开发组：577672548
Python树莓派组：338456791
Python渗透测试组：274631467
Python量化交易策略组：264204289
Python自然语言处理组： 570364809
微信公众号：Python中文社区
知乎专栏：Python中文社区