Dify工作流节点-文档提取器 - 文章 - 开发者社区

点击上方蓝字关注我们 | AI时代你不是一个旁观者

定义

LLM 自身无法直接读取或解释文档的内容。因此需要将用户上传的文档，通过文档提取器节点解析并读取文档文件中的信息，转化文本之后再将内容传给 LLM 以实现对于文件内容的处理。

应用场景

节点功能

文档提取器节点可以理解为一个信息处理中心，通过识别并读取输入变量中的文件，提取信息后并转化为 string 类型输出变量，供下游节点调用。

picture.image

文档提取器节点

文档提取器节点结构分为输入变量、输出变量。

输入变量

文档提取器仅接受以下数据结构的变量：

文档提取器仅能够提取文档类型文件中的信息，例如 TXT、Markdown、PDF、HTML、DOCX 格式文件的内容，无法处理图片、音频、视频等格式文件。

输出变量

输出变量固定命名为 text。输出的变量类型取决于输入变量：

Array 数组变量一般需配合列表操作节点使用，详细说明请参考列表操作。

配置示例

在一个典型的文件交互问答场景中，文档提取器可以作为 LLM 节点的前置步骤，提取应用的文件信息并传递至下游的 LLM 节点，回答用户关于文件的问题。

本章节将通过一个典型的 ChatPDF 示例工作流模板，介绍文档提取器节点的使用方法。

picture.image

ChatPDF 工作流

配置流程：

picture.image

填写文档提取器的输出变量

配置完成后，应用将具备文件上传功能，使用者可以上传 PDF 文件并展开对话。

picture.image

如需了解如何在聊天对话中上传文件并与 LLM 互动，请参考附加功能。

往期工作流文章

更多文章请到公众号主页查看

dify相关资源

如果对你有帮助，欢迎点赞收藏 备用。

回复 DSL 获取公众号DSL文件资源

回复入群获取二维码，我拉你入群

回复 tk 获取免费token资源

你又不打算赞赏，就点赞、在看吧 picture.image 。