爬虫实战(一)爬取新笔趣阁小说1.0

向量数据库大模型机器学习

新笔趣阁”只支持在线浏览,不支持小说打包下载。本次实战就教大家如何“优雅”的下载一篇名为《伏天氏》的网络小说。
绝对不是打广告大家好好学习不要看小说,这小说我
编程语言的学习往往在项目实战中是最深刻的。

每天早上上班地铁上很多人都在看小说打发时间,我也是一个玄幻小说迷,那么就从写一个小说网站的爬虫开始吧。

我一直在笔趣阁看小说,右键查看了下网页源代码,发现目标网站应该是可以爬的(小说内容源代码可见)。

picture.image

可以开始了

爬虫大致分为三个步骤:
1、发起请求:我们需要先明确如何发起 HTTP 请求,获取到数据。
2、解析数据:获取到的数据乱七八糟的,我们需要提取出我们想要的数据。
3、保存数据:将我们想要的数据,保存下载

一、确定目标和思路
浏览网站之后做出如下打算:
爬虫功能:
1、输入要搜索的小说
2、跳到目标小说URL
3、按章节爬取
4、先按小说《伏天氏》来吧,绝对不是打广告啊,这小说我看了好久了,啥主角就爱装比,不建议大家看。

第一步提交要搜索的小说,并返回打印内容、

  
#!/usr/bin/python3  
#_*_coding:utf-8_*_  
#god_mellon  
import requests  
import re  
book_name='伏天氏 '  
url='https://www.xsbiquge.com/search.php?'+ 'keyword='+ book_name  
print(url)  
keyword=book_name  
resp=requests.get(url)  
print("请求状态:",resp.status_code)  
print(resp.encoding)   
resp.encoding='utf-8'  
resp=resp.text  
#print(resp)  
  

第二步:正则提取目标小说URL

  
pattern=re.compile(r'https://www.xsbiquge.com/\d{1,9}_\d{1,9}/') ##正则抓取书名链接  
book_url=pattern.search(resp).group()  
print('获取到小说地址:',book_url)  
  

运行结果:

  
https://www.xsbiquge.com/search.php?keyword=伏天氏   
请求状态:200  
utf-8  
获取到小说地址:https://www.xsbiquge.com/9_9208/  

第三步:获取小说章节

  
pattern2=re.compile(r'/\d{1,9}_\d{1,9}/\d{1,9}\.html')  
chapters_url=pattern2.findall(resp2)  
print(chapters_url)

运行结果:
picture.image

第四步:先爬取一章小说内容

  
test_url='https://www.xsbiquge.com/9_9208/5095645.html'  
test_resp=requests.get(test_url)  
test_resp.encoding='utf-8'  
test_resp=test_resp.text  
#print(test_resp)  
pattern3=re.compile(r'<div id="content">(.*)</div>')  
text1=pattern3.findall(test_resp)  
#print(text1)  
text1=''.join(text1)   
pattern4=re.compile(r'<br />')   
text2_rm_br=pattern4.sub( '\n',text1)  
#print(text2_rm_br)  
pattern5=re.compile(r'
0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
高性能存储虚拟化方案 NVMe over Fabric 在火山引擎的演进
在云计算中,虚拟化存储扮演着重要角色,其中 iSCSI 协议在业界开放、流行多年。近年来,拥有更优性能的 NVMe over Fabrics 协议也得到了发展。本次分享介绍了 NVMe over Fabrics 在云原生和虚拟化方向的演进工作和成果。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论