爬虫实战(一)爬取新笔趣阁小说1.0 - 文章 - 开发者社区

新笔趣阁”只支持在线浏览，不支持小说打包下载。本次实战就教大家如何“优雅”的下载一篇名为《伏天氏》的网络小说。
绝对不是打广告大家好好学习不要看小说，这小说我
编程语言的学习往往在项目实战中是最深刻的。

每天早上上班地铁上很多人都在看小说打发时间，我也是一个玄幻小说迷，那么就从写一个小说网站的爬虫开始吧。

我一直在笔趣阁看小说，右键查看了下网页源代码，发现目标网站应该是可以爬的（小说内容源代码可见）。

picture.image

可以开始了

爬虫大致分为三个步骤：
1、发起请求：我们需要先明确如何发起 HTTP 请求，获取到数据。
2、解析数据：获取到的数据乱七八糟的，我们需要提取出我们想要的数据。
3、保存数据：将我们想要的数据，保存下载

一、确定目标和思路
浏览网站之后做出如下打算：
爬虫功能：
1、输入要搜索的小说
2、跳到目标小说URL
3、按章节爬取
4、先按小说《伏天氏》来吧，绝对不是打广告啊，这小说我看了好久了，啥主角就爱装比，不建议大家看。

第一步提交要搜索的小说，并返回打印内容、

  
#!/usr/bin/python3  
#_*_coding:utf-8_*_  
#god_mellon  
import requests  
import re  
book_name='伏天氏 '  
url='https://www.xsbiquge.com/search.php?'+ 'keyword='+ book_name  
print(url)  
keyword=book_name  
resp=requests.get(url)  
print("请求状态：",resp.status_code)  
print(resp.encoding)   
resp.encoding='utf-8'  
resp=resp.text  
#print(resp)

第二步：正则提取目标小说URL

  
pattern=re.compile(r'https://www.xsbiquge.com/\d{1,9}_\d{1,9}/') ##正则抓取书名链接  
book_url=pattern.search(resp).group()  
print('获取到小说地址：',book_url)

运行结果：

  
https://www.xsbiquge.com/search.php?keyword=伏天氏   
请求状态：200  
utf-8  
获取到小说地址：https://www.xsbiquge.com/9_9208/

第三步：获取小说章节

  
pattern2=re.compile(r'/\d{1,9}_\d{1,9}/\d{1,9}\.html')  
chapters_url=pattern2.findall(resp2)  
print(chapters_url)

运行结果：
picture.image

第四步：先爬取一章小说内容

  
test_url='https://www.xsbiquge.com/9_9208/5095645.html'  
test_resp=requests.get(test_url)  
test_resp.encoding='utf-8'  
test_resp=test_resp.text  
#print(test_resp)  
pattern3=re.compile(r'<div id="content">(.*)</div>')  
text1=pattern3.findall(test_resp)  
#print(text1)  
text1=''.join(text1)   
pattern4=re.compile(r'<br />')   
text2_rm_br=pattern4.sub( '\n',text1)  
#print(text2_rm_br)  
pattern5=re.compile(r'