AI批量提取某本图书中提到的书名 - 文章 - 开发者社区

《阅读的方法》这本书中提到了很多书名，如何将其全部提取出来呢？

Deepseek中输入提示词：

你是一个Python编程专家，写一个提取书名的脚本，具体步骤如下：

读取文件："F:\book\Luo Zhen Yu\Yue Du De Fang Fa (3)\阅读的方法.docx"

查找书中所有的成对书名号“《》”；

将书名号所在的这一段落提取出来，另存到docx文件："F:\book\Luo Zhen Yu\Yue Du De Fang Fa (3)\阅读的方法-书单.docx"

注意：每一步都要输出信息到屏幕上

picture.image

要实现这个功能，我们可以使用Python的python-docx库来读取和写入Word文档。以下是一个完整的脚本，它按照你的要求提取书名号所在的行，并将其保存到新的Word文档中。

首先，确保你已经安装了python-docx库。如果没有安装，可以使用以下命令进行安装：

bash

复制

pip install python-docx

然后，编写以下Python脚本：

from docx import Document

定义文件路径

input_file_path = r"F:\book\Luo Zhen Yu\Yue Du De Fang Fa (3)\阅读的方法.docx"

output_file_path = r"F:\book\Luo Zhen Yu\Yue Du De Fang Fa (3)\阅读的方法-书单.docx"

读取原始文档

print(f"正在读取文件: {input_file_path}")

doc = Document(input_file_path)

创建一个新的文档用于保存提取的内容

output_doc = Document()

遍历文档中的每一个段落

print("开始查找书名号...")

for para in doc.paragraphs:

检查段落中是否包含书名号“《”和“》”

if '《' in para.text and '》' in para.text:

print(f"找到包含书名号的行: {para.text}")

将该段落添加到新文档中

output_doc.add_paragraph(para.text)

保存提取的内容到新文档

print(f"正在保存提取的内容到: {output_file_path}")

output_doc.save(output_file_path)

print("提取和保存完成！")

picture.image

程序运行结果：

picture.image