Deepseek批量处理word文档中的段落内容顺序和格式 - 文章 - 开发者社区

Word文档中很多这样的段落，要调整内容顺序和格式

picture.image

在deepseek中输入提示词：

你是一个Python编程专家，要完成如下word文档处理任务：

读取word文档："D:\AR列表英文书.docx"；

里面的内容是多个段落，格式为：序号.书名/蓝思值/AR值

比如：

1.Fly Guy苍蝇小子系列/120L-400L/1.3-2.8

2.Amelia Bedelia糊涂女佣/200L-570L/1.8-3.7

3.Nate The Great小侦探内特/230L-570L/2.0-3.7

首先删除段落开头的序号；

然后将AR值内容提取出来，前面加上字符串“AR”，放在段落开头；

然后将段落中的符号“/”替换为“-”

AR值和书名之间的符号“.”用空格代替；

删除段落末尾的符号“-”；

处理完成后的文档内容应该是这样的：

AR1.3-2.8 Fly Guy苍蝇小子系列-120L-400L

AR1.8-3.7 Amelia Bedelia糊涂女佣-200L-570L

AR2.0-3.7 Nate The Great小侦探内特-230L-570L

将处理好的段落保存到一个新的word文档中；

注意：每一步都要输出信息到屏幕上

Deepseek的回复：

好的，我们将按照你的要求逐步处理Word文档，并在每一步输出信息到屏幕上。以下是详细的Python代码实现：

安装python-docx库
首先，确保你已经安装了python-docx库。如果没有安装，可以使用以下命令进行安装：
bash
复制
pip install python-docx
编写Python代码

from docx import Document

读取Word文档

doc = Document(r"D:\AR列表英文书.docx")

用于存储处理后的段落

new_paragraphs = []

遍历文档中的每个段落

for para in doc.paragraphs:

text = para.text

输出原始段落内容

print(f"原始段落内容: {text}")

删除段落开头的序号

if text.strip(): # 确保段落不为空

parts = text.split('.', 1)

if len(parts) == 2:

text = parts[1].strip()

else:

text = text.strip()

输出删除序号后的段落内容

print(f"删除序号后的段落内容: {text}")

提取AR值

parts = text.split('/')

if len(parts) == 3:

book_name = parts[0]

lexile_value = parts[1]

ar_value = parts[2]

将AR值放在段落开头，前面加上字符串“AR”

new_text = f"AR{ar_value} {book_name}-{lexile_value}"

输出处理后的段落内容

print(f"处理后的段落内容: {new_text}")

将处理后的段落添加到列表中

new_paragraphs.append(new_text)

创建一个新的Word文档

new_doc = Document()

将处理后的段落添加到新文档中

for new_para in new_paragraphs:

new_doc.add_paragraph(new_para)

保存新文档

new_doc.save(r"D:\AR列表英文书_processed.docx")

print("处理完成，新文档已保存为 'D:\AR列表英文书_processed.docx'")

3代码解释

读取Word文档: 使用Document类读取Word文档。

遍历段落: 遍历文档中的每个段落，并输出原始段落内容。

删除序号: 通过分割字符串删除段落开头的序号，并输出删除序号后的段落内容。

提取AR值: 使用split('/')方法将段落内容分割成书名、蓝思值和AR值。

生成新段落: 将AR值放在段落开头，并将/替换为-，将AR值和书名之间的符号.用空格代替，删除段落末尾的符号-，然后输出处理后的段落内容。

创建新文档: 创建一个新的Word文档，并将处理后的段落添加到新文档中。

保存新文档: 将新文档保存到指定路径。

运行代码

运行上述代码后，你将看到原始段落内容、删除序号后的段落内容以及处理后的段落内容输出到屏幕上。最终，处理后的文档将保存为D:\AR列表英文书_processed.docx。

注意事项

确保路径和文件名正确，避免路径中的反斜杠问题。

如果文档中有空段落或其他特殊情况，代码可能需要进一步调整。

通过以上步骤，你可以成功完成Word文档的处理任务。

picture.image

处理后的word文档如下：

picture.image