AI批量提取某本图书中提到的书名

火山方舟向量数据库大模型

《阅读的方法》这本书中提到了很多书名,如何将其全部提取出来呢?

Deepseek中输入提示词:

你是一个Python编程专家,写一个提取书名的脚本,具体步骤如下:

读取文件:"F:\book\Luo Zhen Yu\Yue Du De Fang Fa (3)\阅读的方法.docx"

查找书中所有的成对书名号“《》”;

将书名号所在的这一段落提取出来,另存到docx文件:"F:\book\Luo Zhen Yu\Yue Du De Fang Fa (3)\阅读的方法-书单.docx"

注意:每一步都要输出信息到屏幕上

picture.image

要实现这个功能,我们可以使用Python的python-docx库来读取和写入Word文档。以下是一个完整的脚本,它按照你的要求提取书名号所在的行,并将其保存到新的Word文档中。

首先,确保你已经安装了python-docx库。如果没有安装,可以使用以下命令进行安装:

bash

复制

pip install python-docx

然后,编写以下Python脚本:

from docx import Document

定义文件路径

input_file_path = r"F:\book\Luo Zhen Yu\Yue Du De Fang Fa (3)\阅读的方法.docx"

output_file_path = r"F:\book\Luo Zhen Yu\Yue Du De Fang Fa (3)\阅读的方法-书单.docx"

读取原始文档

print(f"正在读取文件: {input_file_path}")

doc = Document(input_file_path)

创建一个新的文档用于保存提取的内容

output_doc = Document()

遍历文档中的每一个段落

print("开始查找书名号...")

for para in doc.paragraphs:

检查段落中是否包含书名号“《”和“》”

if '《' in para.text and '》' in para.text:

print(f"找到包含书名号的行: {para.text}")

将该段落添加到新文档中

output_doc.add_paragraph(para.text)

保存提取的内容到新文档

print(f"正在保存提取的内容到: {output_file_path}")

output_doc.save(output_file_path)

print("提取和保存完成!")

picture.image

程序运行结果:

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生环境下的日志采集存储分析实践
云原生场景下,日志数据的规模和种类剧增,日志采集、加工、分析的多样性也大大增加。面对这些挑战,火山引擎基于超大规模下的 Kubernetes 日志实践孵化出了一套完整的日志采集、加工、查询、分析、消费的平台。本次主要分享了火山引擎云原生日志平台的相关实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论