Deepseek批量处理word文档中的段落内容顺序和格式

向量数据库大模型云通信

Word文档中很多这样的段落,要调整内容顺序和格式

picture.image

在deepseek中输入提示词:

你是一个Python编程专家,要完成如下word文档处理任务:

读取word文档:"D:\AR列表英文书.docx";

里面的内容是多个段落,格式为:序号.书名/蓝思值/AR值

比如:

1.Fly Guy苍蝇小子系列/120L-400L/1.3-2.8

2.Amelia Bedelia糊涂女佣/200L-570L/1.8-3.7

3.Nate The Great小侦探内特/230L-570L/2.0-3.7

首先删除段落开头的序号;

然后将AR值内容提取出来,前面加上字符串“AR”,放在段落开头;

然后将段落中的符号“/”替换为“-”

AR值和书名之间的符号“.”用空格代替;

删除段落末尾的符号“-”;

处理完成后的文档内容应该是这样的:

AR1.3-2.8 Fly Guy苍蝇小子系列-120L-400L

AR1.8-3.7 Amelia Bedelia糊涂女佣-200L-570L

AR2.0-3.7 Nate The Great小侦探内特-230L-570L

将处理好的段落保存到一个新的word文档中;

注意:每一步都要输出信息到屏幕上

Deepseek的回复:

好的,我们将按照你的要求逐步处理Word文档,并在每一步输出信息到屏幕上。以下是详细的Python代码实现:

  1. 安装python-docx库
    首先,确保你已经安装了python-docx库。如果没有安装,可以使用以下命令进行安装:
    bash
    复制
    pip install python-docx
  2. 编写Python代码

from docx import Document

读取Word文档

doc = Document(r"D:\AR列表英文书.docx")

用于存储处理后的段落

new_paragraphs = []

遍历文档中的每个段落

for para in doc.paragraphs:

text = para.text

输出原始段落内容

print(f"原始段落内容: {text}")

删除段落开头的序号

if text.strip(): # 确保段落不为空

parts = text.split('.', 1)

if len(parts) == 2:

text = parts[1].strip()

else:

text = text.strip()

输出删除序号后的段落内容

print(f"删除序号后的段落内容: {text}")

提取AR值

parts = text.split('/')

if len(parts) == 3:

book_name = parts[0]

lexile_value = parts[1]

ar_value = parts[2]

将AR值放在段落开头,前面加上字符串“AR”

new_text = f"AR{ar_value} {book_name}-{lexile_value}"

输出处理后的段落内容

print(f"处理后的段落内容: {new_text}")

将处理后的段落添加到列表中

new_paragraphs.append(new_text)

创建一个新的Word文档

new_doc = Document()

将处理后的段落添加到新文档中

for new_para in new_paragraphs:

new_doc.add_paragraph(new_para)

保存新文档

new_doc.save(r"D:\AR列表英文书_processed.docx")

print("处理完成,新文档已保存为 'D:\AR列表英文书_processed.docx'")

3代码解释

读取Word文档: 使用Document类读取Word文档。

遍历段落: 遍历文档中的每个段落,并输出原始段落内容。

删除序号: 通过分割字符串删除段落开头的序号,并输出删除序号后的段落内容。

提取AR值: 使用split('/')方法将段落内容分割成书名、蓝思值和AR值。

生成新段落: 将AR值放在段落开头,并将/替换为-,将AR值和书名之间的符号.用空格代替,删除段落末尾的符号-,然后输出处理后的段落内容。

创建新文档: 创建一个新的Word文档,并将处理后的段落添加到新文档中。

保存新文档: 将新文档保存到指定路径。

  1. 运行代码

运行上述代码后,你将看到原始段落内容、删除序号后的段落内容以及处理后的段落内容输出到屏幕上。最终,处理后的文档将保存为D:\AR列表英文书_processed.docx。

  1. 注意事项

确保路径和文件名正确,避免路径中的反斜杠问题。

如果文档中有空段落或其他特殊情况,代码可能需要进一步调整。

通过以上步骤,你可以成功完成Word文档的处理任务。

picture.image

处理后的word文档如下:

picture.image

0
0
0
0
相关资源
云原生可观测性技术的落地实践
云原生技术和理念在近几年成为了备受关注的话题。应用通过云原生改造,变得更动态、弹性,可以更好地利用云的弹性能力。但是动态、弹性的环境也给应用以及基础设施的观测带来了更大的挑战。本次分享主要介绍了云原生社区中可观测性相关的技术和工具,以及如何使用这些工具来完成对云原生环境的观测。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论