之前写的笔趣阁爬虫1.0还没有实现下载功能,今天又补充了很多东西。
不过还有不少问题。大佬们可以提提建议。
在昨天的基础上增加了以下内容:
一、###获取小说简介
ddef get_jianjie():
pattern_description=re.compile(r'description"\scontent="(.*)"/>')
resp_description=pattern_description.findall(resp2)
resp_description=''.join(resp_description)
pattern_author=re.compile(r"author\"\scontent=\"\w+") #匹配小说作者
resp_author=pattern_author.findall(resp2)
resp_author=''.join(resp_author)
resp_author=re.sub(r"content=",' ',resp_author)
resp_author=re.sub(r'[^\u4e00-\u9fa5]+', '',resp_author) ###匹配作者并替换所有非中文符号
author = "作者:"+ resp_author
#print(resp_description)
#print(resp_author)
with open('./{0}.txt'.format(book_name),"a+",encoding='utf-8') as f:
print("正在写入小说作者与简介...")
print(f.write(book_name))
print(f.write('\n'))
print(f.write(author))
print(f.write('\n'))
print(f.write(resp_description))
print(f.write('\n')) ###回车换行很重要
print(f.write('\n'))
f.close()
二、增加写入文件,并创建以书名命名的xxx.txt
#############爬取小说内容方法########################
def get_book_text(end_url):
test_url=end_url ##url
test_resp=requests.get(test_url)
test_resp.encoding='utf-8'
test_resp=test_resp.text
xxxx=test_resp
#print(test_resp)
############匹配小说正文###################
pattern3=re.compile(r'<div id="content">(.*)</div>')
text1=pattern3.findall(test_resp)
#print(text1)
text1=''.join(text1) #列表转字符串
pattern4=re.compile(r'<br />') ##匹配回车
text2_rm_br=pattern4.sub( '\n',text1)###########替换回车
#print(text2_rm_br)
pattern5=re.compile(r'