Python3爬虫_爬取笔趣阁小说2.0

火山方舟向量数据库大模型

之前写的笔趣阁爬虫1.0还没有实现下载功能,今天又补充了很多东西。
不过还有不少问题。大佬们可以提提建议。

在昨天的基础上增加了以下内容:

一、###获取小说简介

  
ddef get_jianjie():  
 pattern_description=re.compile(r'description"\scontent="(.*)"/>')  
 resp_description=pattern_description.findall(resp2)  
 resp_description=''.join(resp_description)  
 pattern_author=re.compile(r"author\"\scontent=\"\w+") #匹配小说作者  
 resp_author=pattern_author.findall(resp2)  
 resp_author=''.join(resp_author)  
 resp_author=re.sub(r"content=",' ',resp_author)  
 resp_author=re.sub(r'[^\u4e00-\u9fa5]+', '',resp_author) ###匹配作者并替换所有非中文符号  
 author = "作者:"+ resp_author  
 #print(resp_description)  
 #print(resp_author)  
 with open('./{0}.txt'.format(book_name),"a+",encoding='utf-8') as f:  
 print("正在写入小说作者与简介...")  
 print(f.write(book_name))  
 print(f.write('\n'))  
 print(f.write(author))  
 print(f.write('\n'))  
 print(f.write(resp_description))  
 print(f.write('\n')) ###回车换行很重要  
 print(f.write('\n'))  
 f.close()  
  

二、增加写入文件,并创建以书名命名的xxx.txt

  
#############爬取小说内容方法########################  
def get_book_text(end_url):  
 test_url=end_url ##url  
 test_resp=requests.get(test_url)  
 test_resp.encoding='utf-8'  
 test_resp=test_resp.text  
 xxxx=test_resp  
 #print(test_resp)  
  
 ############匹配小说正文###################  
 pattern3=re.compile(r'<div id="content">(.*)</div>')  
 text1=pattern3.findall(test_resp)  
 #print(text1)  
 text1=''.join(text1) #列表转字符串  
 pattern4=re.compile(r'<br />') ##匹配回车  
 text2_rm_br=pattern4.sub( '\n',text1)###########替换回车  
 #print(text2_rm_br)  
 pattern5=re.compile(r'
0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论