【TextIn大模型加速器 + 火山引擎】实战博主教你手把手打造最强医疗报告单分析智能体Agent

智能体验与创作火山方舟扣子
一.前言

在医疗数字化不断深化的今天,医疗报告单依然是信息化链路中最“难啃的一块骨头”。它高度非结构化、格式五花八门,却又承载着最关键的健康信息。无论是医院信息系统、体检机构平台,还是互联网医疗应用,几乎每天都在与大量 PDF、扫描件、拍照上传的报告单打交道,而其中绝大多数数据,仍然依赖人工阅读、人工录入、人工解读。

随着大模型技术逐步走向工程化落地,一个共识正在形成:真正有价值的智能体,并不是会聊天,而是能把复杂文档转化为可用数据,并直接嵌入业务流程。医疗报告单分析,正是最典型、也是最具商业与社会价值的应用场景之一。

本文将以一个真实可落地的实战案例为主线,系统讲解如何结合 TextIn 大模型加速器、火山引擎大模型与扣子(Coze)服务体系,从 0 到 1 打造一套可上线、可规模化运行的医疗报告单分析智能体 Agent。我们不会停留在概念层,而是聚焦完整链路、工程设计与效果指标,带你看清:医疗文档智能体,究竟是如何真正跑进生产系统的。

扣子 - 智能体平台 TextIn 大模型加速器 - 用于文档解析(OCR + 结构化)和医疗字段抽取 知识库 / 向量库 - 存储医疗指标知识和历史报告 火山引擎 LLM Agent - 语义分析、风险判断、总结生成

效果预览:

picture.image

picture.image

picture.image

1.1 一张医疗报告单,是如何被「智能体」吃干抹净的?

在真实的医疗业务中,「报告单」从来不是系统眼中友好的结构化数据。它更像是一种高度非标准、强噪声、强上下文依赖的“半结构化文本集合”,而且来源极其复杂。

picture.image

一张看似普通的医疗报告,可能来自医院 HIS / LIS 系统导出的 PDF 文件,也可能是患者用手机随手拍下的一张体检报告照片,甚至是扫描仪生成的多页检验单、影像诊断单,或者第三方体检机构打包导出的混合文档。这些文档在版式、字体、语言风格、指标命名方式上几乎没有任何统一标准。

但对于业务系统来说,它真正关心的从来不是“这张报告长什么样”,而是隐藏在其中的医学信息价值。系统需要的是哪些指标异常了、哪些指标在历史上出现了趋势性变化、当前是否存在需要提示的潜在风险,以及最终能否将所有信息稳定地落到结构化字段中: 指标名称、检测数值、单位、参考区间、是否异常、异常级别。

picture.image

1.2 文档智能体落地场景

问题在于,这些信息在报告单中并不是直接“给系统准备好的”。它们往往被拆散在表格、段落、页眉页脚、备注说明甚至医生手写补充中,人类医生可以一眼看懂,但对传统程序而言几乎无法直接消费。

这正是「文档智能体」最典型、也是最刚需的落地场景。

当一张医疗报告单进入系统后,它并不会被简单地当作一个文件处理,而是被视为一个需要被理解、被拆解、被推理的复杂对象。智能体首先要解决的不是“分析”,而是“看清楚”——这意味着对 PDF、图片、扫描件进行统一接入,对文本、表格、版式进行高精度识别。

picture.image

接下来,智能体要做的是“读懂”。不同医院对同一指标可能有完全不同的命名方式,不同检测项目的参考区间规则也并不一致,甚至同一份报告中,数值和单位的书写位置都可能发生变化。这一步,本质上是一个医学语义理解 + 领域规则推理的过程。

在完成语义层面的理解之后,智能体才真正进入业务关心的阶段:

  • 结构化抽取、异常判定、历史对比与风险解释。
  • 哪些指标超出了参考区间?是轻度异常还是需要重点关注?
  • 与患者历史数据相比,是短期波动,还是持续恶化的趋势?

最终,原本杂乱无章的医疗报告,被智能体“消化”为一组稳定、可计算、可追踪的数据结果,直接进入下游系统,服务于医生辅助决策、患者健康管理或保险风控等业务场景。

从一张“人类友好”的报告单,到一套“系统友好”的结构化结果,这就是医疗文档智能体真正存在的意义所在。

二.TextIn 大模型加速器直接解析医疗报告单

从医疗票据与报告单处理的实际业务复杂度来看,TextIn 大模型加速器明显是为该垂直领域深度优化过的解决方案。在其官方产品页面中,对医疗票据处理场景给出了较为系统且贴近真实业务的定位说明:

在医疗票据处理场景中,传统人工录入方式因票据类型多、结构复杂而长期面临效率低、错误率高与合规风险大的问题。引入医疗票据识别 API 后,可对住院发票、费用清单、检验报告等多类票据进行自动化解析,精准提取关键字段并以标准化 JSON(Key/Value)结构输出,在显著缩短单据处理时间的同时提升识别准确率,从根本上缓解人工压力,帮助医院、医保机构及第三方平台实现高效、规范、低成本的票据处理与数据对接。

从这段描述可以看出,TextIn 并非仅提供“通用 OCR”,而是围绕医疗行业票据与报告单这一高度专业化场景,在字段定义、结构建模、输出规范等方面进行了针对性设计。

本章节的目标非常明确:验证 TextIn 大模型加速器是否具备直接胜任医疗报告单解析任务的能力,并评估其在工程落地层面的可用性。

2.1 解析代码调用

在正式调用之前,首先访问 TextIn 大模型加速器官网,并进入其开发者 API 文档页面。整体文档结构清晰,接口说明、参数定义、返回字段解释都较为完整,对开发者非常友好。

picture.image

可以看到,医疗票据识别相关接口已经进行了明确分类,接口语义直观,基本不需要额外反复试错即可完成首次接入。

接下来直接进行接口调用测试。需要注意的是,请求中包含两个关键鉴权参数:

  • x-ti-app-id
  • x-ti-secret-code

这两个参数可在 TextIn 大模型加速器个人工作台 → 账号设置 → 开发者信息 中获取。

picture.image

下面给出一个完整、可直接运行的 Python 调用示例,分别支持本地文件上传图片 URL 方式两种输入形式。

import requests
import json

def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

class CommonOcr(object):
    def __init__(self, img_path=None, is_url=False):
        # 医疗票据/报告单识别接口
        self._url = 'https://api.textin.com/ai/service/v1/medical_recognize'
        # TextIn 应用 ID
        self._app_id = 'c81f*************************e9ff'
        # TextIn Secret Code
        self._secret_code = '5508***********************1c17'
        self._img_path = img_path
        self._is_url = is_url

    def recognize(self, options: dict = dict()):
        head = {}
        params = {}
        
        try:
            for key, value in options.items():
                params[key] = str(value)
                
            head['x-ti-app-id'] = self._app_id
            head['x-ti-secret-code'] = self._secret_code

            if self._is_url:
                head['Content-Type'] = 'text/plain'
                body = self._img_path
            else:
                image = get_file_content(self._img_path)
                head['Content-Type'] = 'application/octet-stream'
                body = image

            result = requests.post(self._url, data=body, headers=head)
            return result.text
        except Exception as e:
            return e

if __name__ == "__main__":
    # 示例 1:传输本地图片文件
    response = CommonOcr(img_path=r'example.jpg')
    print(response.recognize())

    # 示例 2:传输图片 URL
    response = CommonOcr(
        img_path='http://example.com/example.jpg',
        is_url=True
    )
    print(response.recognize())

从工程角度来看,该接口调用方式非常“干净”:

  • 请求体只关注图像本身
  • 鉴权信息通过 Header 传递
  • 不需要额外构造复杂的参数结构
  • 对文件流与 URL 两种输入形式同时支持

这对于后续在 Agent、批处理服务或微服务中进行封装都非常友好。

在完成调用后,可以直接获得原始的 JSON 字符串返回结果。其解析效果如下所示:

picture.image

为了更直观地分析返回内容,将结果进行格式化处理后,可以看到其结构已经高度标准化:

picture.image

从格式化后的结果可以明显看出几个特点:

  • 字段语义清晰,贴合医疗业务术语
  • 采用标准 Key / Value 结构,便于程序直接消费
  • 多层结构合理,能够覆盖复杂报告单的层级信息

对于后续做规则校验、结构映射、数据入库、报告解读 Agent来说,几乎不需要再做额外的 OCR 清洗工作。

关于各字段的具体含义、数据类型以及可能出现的取值范围,TextIn 官方文档中也提供了非常详细的返回结果说明页,覆盖了绝大多数医疗票据与报告单场景。

picture.image

这对于正式项目落地非常重要,避免了“字段含义靠猜”的情况,大幅降低了对接成本。

2.2 官网直接使用

此外,TextIn 还在官网提供了在线免费体验入口,无需编写代码即可直接上传医疗报告单进行解析,方便产品选型阶段进行快速验证。

picture.image

从实际体验结果来看,解析效果与 API 返回结果保持高度一致,专业性非常强。并且,解析结果支持直接导出为 ExcelJSON,对业务人员与技术人员都十分友好。

picture.image

picture.image

综合来看,TextIn 大模型加速器在医疗报告单解析这一高专业门槛场景中,已经具备“即插即用”的工程可行性,为后续构建医疗文档分析 Agent、智能审核、报告解读等系统奠定了非常扎实的数据基础。

2.3 效果指标评估

在完成对 TextIn 大模型加速器医疗报告单解析能力的功能性验证后,有必要从工程效率与业务成本两个维度,对其实际落地效果进行量化评估。以下指标基于真实接口调用体验与医疗票据处理的常见人工流程进行对比分析。

2.3.1 处理耗时

单份医疗报告单解析耗时是衡量该类 API 是否具备规模化应用能力的核心指标之一。

在本次测试中,采用清晰拍照的体检报告单与常见检验报告单作为输入,统计从发起 HTTP 请求到完整 JSON 结果返回的端到端耗时,结果如下:

picture.image

  • TextIn 大模型加速器

    • 单次请求整体耗时:0.5s ~ 1.0s
    • 返回结果一次性完整输出,无需二次轮询
    • 支持并发调用,适合批量处理场景

作为对比,传统人工方式的处理流程通常包括:

  1. 打开票据或报告单文件
  2. 人工查找关键字段(姓名、项目、结果、参考范围等)
  3. 手动录入系统或 Excel
  4. 复核与纠错

在熟练人员参与的情况下:

  • 人工处理单份医疗报告单耗时:约 3 ~ 8 分钟
  • 报告结构复杂或图片质量较差时,耗时进一步上升

👉 结论:在处理耗时维度,TextIn 相比人工录入提升约 100~300 倍,且耗时稳定、可预测,非常适合高并发与批量自动化场景。

2.3.2 成本对比(vs 原人工)

在医疗业务中,票据与报告单解析通常属于高频、低价值但必须准确的基础性工作,其长期成本往往被严重低估。

①人工处理成本

以常见业务配置为例:

  • 人工录入人员人力成本:约 30~60 元 / 小时
  • 平均每小时可处理:8~15 份 医疗报告单
  • 单份报告单人工成本约为:

2 ~ 7 元 / 份(不含复核、返工成本)

此外,还需额外考虑:

  • 高峰期人员调度成本
  • 加班与临时人力成本
  • 错录、漏录带来的业务风险与合规风险

②TextIn 自动解析成本

采用 TextIn 大模型加速器后:

  • 单份报告单解析由 API 自动完成
  • 无人工参与字段识别与结构化过程
  • 成本主要来自 API 调用费用(随调用量线性增长)

在规模化使用场景中:

  • 单份报告单解析成本显著低于人工
  • 成本结构清晰、可预测
  • 不随业务高峰出现“隐性暴涨”

③综合对比结论

对比维度人工方式TextIn 大模型加速器
单份处理耗时3~8 分钟0.8~1.5 秒
成本结构人力为主,波动大API 调用,稳定可控
扩展能力受人力限制可线性扩展
错误风险易受疲劳影响结果一致性高
适合场景小规模、低频大规模、高频

picture.image

在中大规模医疗票据与报告单处理场景中,TextIn 大模型加速器不仅在效率上具备压倒性优势,在长期成本控制与合规稳定性方面也明显优于纯人工方案。

三. 基于扣子搭建「最强医疗报告单分析」智能体

在完成底层医疗报告单解析能力验证后,下一步的核心问题是:如何将 OCR 解析能力、大模型理解能力与业务分析逻辑进行统一编排,形成一个可直接对外服务的智能体?

本章将基于 扣子(Coze)智能体平台,从零开始搭建一个面向真实医疗业务场景的「医疗报告单分析智能体」。

3.1 扣子智能体基础配置

首先,访问并打开 扣子(Coze)平台,进入智能体管理界面。

picture.image

扣子平台提供了完整的智能体创建与配置能力,支持在个人空间中快速构建面向不同业务场景的专用智能体。

在扣子首页,进入个人空间,点击「扣子编程」并选择新建智能体

picture.image

该方式适合从零开始构建一个完全自定义的智能体,便于后续逐步接入 OCR、工具调用、流程编排等能力。

进入创建页面后,进行智能体的基础信息配置:

  • 智能体名称:医疗报告单解析智能体
  • 智能体描述: 面向医疗文档处理场景,智能体实现报告单自动解析与结构化输出,减少人工录入压力,提升数据质量与合规稳定性,并输出可直接使用的报告单分析结果。

该命名与描述强调了三个关键点: 1)明确聚焦医疗报告单场景 2)突出“结构化输出”的核心能力 3)指向最终的业务分析价值

picture.image

完成基础信息配置后,进入提示词(Prompt)设置环节。提示词是智能体行为的核心约束,对其理解深度、输出风格和专业性具有决定性影响。

在本智能体中,提示词重点围绕以下原则进行设计:

  • 明确智能体角色:医疗数据处理与分析专家
  • 约束输出结果:基于结构化数据进行分析
  • 避免泛泛而谈,强调专业性与可解释性
  • 输出内容应适配医疗业务人员阅读习惯

具体提示词配置如下所示:

picture.image

通过该提示词设置,可以确保智能体在后续对话中始终围绕“医疗报告单解析与分析”这一主线展开,而不会偏离业务语境。

在大模型选择方面,本次智能体选用 豆包 1.5 Pro 32k 作为核心推理模型。

picture.image

选择该模型的主要原因包括:

  • 32k 上下文长度,适合承载完整医疗报告单解析结果
  • 对中文医疗文本具备良好的理解能力
  • 推理稳定,适合连续对话与多轮分析
  • 成本与性能之间平衡度较高,适合工程落地

这使得智能体可以在单轮或多轮对话中,对复杂报告单内容进行完整理解与综合分析。

最后,进行智能体的开场白配置,用于用户首次进入对话时的引导说明。

开场白设置如下:

你好!我是专业的医疗数据处理助手,能精准解析各类医疗报告单,为你提供可靠分析。

picture.image

该开场白在保持简洁的同时,明确传达了智能体的能力边界与专业定位,有助于用户快速理解其使用方式和适用场景。

至此,一个具备清晰角色定位、稳定大模型支撑、面向医疗业务的基础智能体已在扣子平台中完成创建。下一步,将在此基础上接入工作流,并进一步构建完整的分析流程。

3.2 工作流搭建

工作流的作用说明

在智能体系统中,工作流(Workflow)是将“感知 → 处理 → 分析 → 输出”完整串联起来的核心编排单元。 它负责明确:

  • 在什么条件下触发
  • 数据从哪里来
  • 经过哪些能力节点处理
  • 最终以什么形式返回或沉淀结果

在本项目中,工作流的核心职责是: 当用户上传医疗报告相关的图片、文件或提出明确的报告解析需求时,自动完成“报告识别 → 结构化解析 → 医学指标解读 → 结果输出/沉淀”的全流程处理,避免大模型仅凭自然语言进行臆测式回答,确保分析结果的专业性与可信度。

3.2.1 新增工作流

在智能体的编排页面中,点击 「新增工作流」

picture.image

进入创建页面后,选择 创建工作流

picture.image

3.2.2 工作流基础信息配置

创建工作流后,需要首先对工作流进行语义级别的定义,让大模型明确: “在什么场景下,这条工作流必须被调用”

工作流名称

MedReport_Analyzer

该名称清晰表达了工作流的职责:医疗报告单解析与分析,便于后续在复杂智能体中进行维护与复用。

工作流描述(关键)

当用户提供医疗报告单、体检报告、检验单、化验单等文件、图片或链接, 或明确要求对医疗报告进行解析、识别、结构化、字段提取、指标解读、结果分析时, 必须调用本工作流完成报告单解析后再进行回答,禁止仅基于自然语言臆测回复。

这一段描述非常重要,它本质上是对调度策略的约束声明

  • 明确触发条件(上传文件 / 明确分析意图)
  • 强制走“识别 → 解析”流程
  • 禁止大模型“拍脑袋”式输出

picture.image

完成后,即可进入工作流画布页面。

picture.image


3.2.3 开始节点(Start)配置:定义输入

在工作流画布中,开始节点(Start)是整个流程的数据入口,需要在这里定义用户的输入参数。

输入参数配置说明

  • 参数名称input
  • 参数类型:Image(扫描照片)

在实际使用中,扣子支持对同一变量配置多种文件类型(如图片、PDF 等), 这里统一命名为 input,有几个好处:

  1. 后续 HTTP 节点、大模型节点可直接复用
  2. 不强制用户使用固定模板,提升系统鲁棒性
  3. 兼容“拍照上传 / 扫描件 / 截图”等多种来源

后续调用 TextIn 接口时,将直接把该 input 变量绑定为请求体。

picture.image

3.2.4 接入 HTTP 请求节点:调用 TextIn 医疗报告识别能力

开始节点之后,需要接入 HTTP 请求节点,用于调用 TextIn 大模型加速器的医疗报告单分析接口

该节点的核心作用是: 👉 将原始图片转化为结构化、专业级的 OCR + 医疗语义解析结果

接口说明

  • 接口地址:/ai/service/v1/medical_recognize
  • 请求方式:POST

picture.image

在 HTTP 节点的 API 配置中,填写完整 URL,并选择 POST 请求。

picture.image


3.2.5 请求头配置:鉴权信息

在请求头中,需要填写以下两个参数:

  • x-ti-app-id
  • x-ti-secret-code

这是 TextIn 提供的应用级鉴权信息。

picture.image

获取方式说明

  1. 登录 TextIn 控制台
  2. 进入 开发者信息 / 应用管理
  3. 即可看到对应的 AppID 与 Secret

picture.image


3.2.6 请求体绑定输入参数

请求体中,直接绑定开始节点定义的 input 参数。

这样可以实现: 用户上传什么内容 → 原样传递给 TextIn → 返回结构化解析结果

picture.image

3.2.7 HTTP 节点测试

配置完成后,对 HTTP 节点进行测试。

测试图片如下(示例中已对敏感信息打码,实际测试使用完整原图)。

picture.image

试运行成功后,可以看到:

  • 检查项目识别准确
  • 数值、单位、参考范围完整
  • 医疗语义专业、结构清晰

picture.image

picture.image


3.2.8 接入大模型节点:报告结果分析

在 HTTP 节点后,接入 大模型节点,并命名为:

报告结果分析大模型

picture.image

模型依旧选择 豆包

picture.image

大模型的输入,直接绑定 TextIn 节点的输出结果,确保分析严格基于 OCR 解析内容。

picture.image

随后编写提示词(Prompt),用于规范模型的角色、能力边界与输出格式。 (此处保留博主原提示词内容,不再重复。)


3.2.9 输出节点配置

在大模型节点后,新增 输出节点,用于将最终分析结果回复给用户。

picture.image

输出变量绑定 报告结果分析大模型节点的输出

picture.image

至此,基础工作流已经完整串联。

picture.image


3.2.10 工作流试运行验证

上传测试图片。

picture.image

试运行结果如下,可以看到:

  • OCR 解析准确
  • 异常指标识别清晰
  • 分析结论专业且通俗

picture.image


3.2.11 飞书插件接入:分析结果自动沉淀

为了实现分析结果的长期保存、团队共享与可追溯复用,在输出节点后引入 飞书云文档插件

picture.image

在插件市场中搜索 “飞书文档”,并添加官方插件。

picture.image

选择能力:write_document,用于向文档中追加内容。

该能力非常适合本场景,因为:

  • 大模型输出为 Markdown
  • 可保留表格、标题、列表结构
  • 无需额外格式转换

picture.image

配置参数:

  • content:绑定大模型输出
  • document_id:填写飞书文档 URL
  • position:默认 end,追加到文档末尾

首次使用需完成授权。

picture.image

3.2.12 飞书文档效果验证

新建飞书在线文档,并将 URL 填入插件节点。

picture.image

运行工作流后,可以看到分析结果已自动写入文档。

picture.image

至此,一个完整、可落地、可沉淀的医疗报告单分析智能体工作流构建完成。

3.3 工作流发布与智能体挂载

在完成工作流的节点编排、参数配置与试运行验证后,当前工作流仍然处于草稿态,仅能在编辑环境中运行,尚无法被智能体正式调用。 因此,在实际投入使用前,还需要完成两个关键步骤:

  1. 发布工作流:将当前版本固化为可调用的正式版本
  2. 智能体挂载工作流:让智能体在合适的用户场景下自动触发该工作流

这两个步骤共同决定了: 👉 用户的真实输入是否能够正确地驱动完整的“医疗报告解析 → 分析 → 输出”流程。


3.3.1 工作流发布

当确认以下内容均已完成并测试无误后,即可进行发布操作:

  • 所有节点连接完整(Start → HTTP → 大模型 → 输出 → 插件)
  • HTTP 接口调用成功,返回结果稳定
  • 大模型分析逻辑与提示词符合预期
  • 输出格式(Markdown)正常显示
  • 飞书文档插件可正常写入内容(如已配置)

在工作流编辑页面,点击右上角 「发布」 按钮。

picture.image

发布动作的本质是:

  • 将当前工作流配置生成一个可复用、可调用的正式版本
  • 冻结当前结构,避免被误改影响线上行为
  • 允许智能体在运行态中安全调用该流程

发布成功后,系统会给出明确提示。

picture.image

此时需要注意:

  • 未发布的工作流无法被智能体挂载
  • 后续如需修改逻辑,需重新发布新版本

3.3.2 智能体挂载工作流

工作流发布完成后,下一步是将其挂载到对应的智能体上,让智能体具备“执行该工作流”的能力。

返回到 智能体配置页面,在工作流配置区域,点击工作流右侧的 「+」 按钮。

picture.image

该操作的含义是: 👉 为当前智能体添加一个可被调用的流程能力模块


3.3.3 选择并添加已发布的工作流

在弹出的工作流列表中,选择刚刚发布的:

MedReport_Analyzer

点击确认,将该工作流添加到智能体中。

picture.image

这里的关键点在于:

  • 只有 已发布 的工作流才会出现在列表中
  • 挂载后,智能体才具备调用该工作流的“执行权限”
  • 是否调用,仍由智能体的调度策略 + 工作流描述共同决定

3.3.4 挂载完成状态确认

完成添加后,可以在智能体配置页面看到该工作流已成功挂载。

picture.image

此时,智能体已具备如下完整能力闭环:

  • 当用户上传医疗报告图片 / 文件

  • 或明确提出“解析体检报告、分析检验单”等请求

  • 智能体将自动识别场景

  • 调用 MedReport_Analyzer 工作流

  • 完成:

    • 医疗 OCR 解析(TextIn)
    • 专业医学指标分析(大模型)
    • 结果结构化输出
    • 分析内容自动沉淀(飞书文档)

至此,医疗报告单分析智能体已完成从“能力搭建”到“对外可用”的最后一步配置,可以正式投入实际使用场景。

3.4 预览与调试智能体

在完成工作流发布并成功挂载到智能体之后,智能体已经具备了完整的能力链路,但在正式对外发布前,必须进行一次端到端的预览与调试,以确认以下关键问题:

  • 用户真实输入是否能正确触发工作流
  • 工作流是否被智能体成功调用
  • 医疗报告解析结果是否准确、稳定
  • 大模型分析内容是否符合医学专业预期
  • 输出结构、语言风格是否适合普通用户阅读

3.4.1 进入预览与调试界面

在智能体配置页面右侧,可以看到 「预览与调试」 区域。

该区域模拟了真实用户与智能体的交互环境,是上线前最重要的验证窗口。


3.4.2 模拟用户输入:上传报告并提问

在预览界面中,模拟真实用户行为:

  • 上传一张医疗报告单图片

  • 同时输入自然语言问题,例如:

    • “帮我分析一下这份体检报告”
    • “这些指标有没有异常?”
    • “需要注意哪些健康风险?”

示例如下:

picture.image

这里的关键观察点是: 👉 用户并未显式指定“调用哪个工作流”,而是通过自然语言 + 文件输入触发智能体决策。


3.4.3 智能体自动调用工作流

提交输入后,智能体开始处理请求。

在调试视图中,可以清晰看到: 智能体成功识别当前场景为“医疗报告解析”类任务,并自动调用了之前创建并挂载的 MedReport_Analyzer 工作流。

picture.image

这一步非常关键,说明:

  • 工作流描述生效
  • 智能体调度逻辑正确
  • 没有出现“直接由大模型自由发挥”的情况

也验证了前文强调的设计目标: 👉 复杂任务必须强制走结构化工作流,而不是纯对话生成。

3.4.4 查看分析结果

工作流执行完成后,智能体返回完整的分析结果。

可以看到输出内容包括:

  • 结构化的检查项目表格
  • 异常指标标记(↑ / ↓ / 超出范围)
  • 指标的通俗医学解读
  • 风险等级划分
  • 可执行的健康建议

picture.image

picture.image

从调试角度重点关注以下几点:

  • 是否严格基于 OCR 结果进行分析
  • 是否没有出现“报告中不存在的指标”
  • 医学用语是否专业但不过度晦涩
  • 风险提示是否克制、合规、不夸大

3.4.5 智能体推荐追问问题

在分析结果下方,智能体还会自动推荐可继续追问的问题,例如:

  • “某个异常指标是否需要复查?”
  • “生活方式上有哪些需要调整?”
  • “是否需要进一步就医?”

picture.image

picture.image 这一步体现了智能体的两个高级能力:

  1. 上下文理解能力:基于当前报告内容推荐问题
  2. 交互引导能力:帮助用户逐步深入理解健康信息

整体体验已经非常接近真实医疗助理的使用感受,专业且克制。

3.5 发布智能体

在完成预览与调试,并确认以下条件均满足后,即可发布智能体:

  • 工作流可被稳定触发
  • 医疗报告解析准确
  • 分析结论符合预期
  • 输出格式友好、可读
  • 无明显逻辑或合规风险

3.5.1 发布智能体

在智能体预览页面右上角,点击 「发布」 按钮。

picture.image

发布智能体的含义是:

  • 将当前配置固化为正式版本
  • 生成可对外访问和调用的实例
  • 允许外部用户通过 URL 使用该智能体

3.5.2 发布到扣子商店(可选)

在发布流程中,可以选择将智能体发布到 扣子商店

picture.image

发布到商店后:

  • 智能体将对更多用户可见
  • 可作为标准化解决方案展示
  • 便于复用、分享与推广

对于医疗报告分析这类通用能力场景,非常适合作为模板型智能体进行发布。

3.5.3 通过 URL 使用智能体

发布成功后,系统会生成一个可访问的 URL。

picture.image

用户无需进入开发或配置页面,只需:

  • 打开链接
  • 上传医疗报告
  • 提出问题

即可直接使用该智能体完成完整分析。


3.5.4 完成总结

至此,最强医疗报告单分析智能体 Agent 已完成从:

  • 能力设计
  • 工作流搭建
  • 工具接入
  • 调试验证
  • 到正式发布

的完整闭环。

picture.image

一个真正可落地、可复用、可扩展的医疗报告分析智能体已经构建完成。

四. 效果指标

医疗报告单分析智能体是否具备上线价值,关键不在于“效果看起来不错”,而在于在真实规模、真实复杂度下,其性能、准确性与成本结构是否稳定可控。 本章基于批量真实样本测试,从处理耗时、准确率与成本三个维度,对该智能体进行系统性评估。

4.1 测试对象与评测口径

4.1.1 测试样本构成

为避免单样本或演示数据带来的偏差,本次评测选取 200 页真实医疗文档,覆盖常见业务场景与复杂版式。

测试对象如下:

  • 常见体检报告单:100 页

    • 覆盖血常规、生化、肝功能、肾功能、血脂、甲状腺功能等高频项目
    • 包含纯表格型、图文混排型、页眉页脚干扰明显的版式
  • 检验科化验单:100 页

    • 主要来源于医院 LIS 系统
    • 指标密度高、参考区间规则复杂
    • 存在跨页、重复表头、备注说明等工程难点

数据来源形式:

  • 手机拍照上传(不同清晰度、光照与角度)
  • 扫描仪扫描件
  • PDF 转图片格式
  • 同一报告在不同成像质量下的解析结果均计入统计

4.1.2 测试链路范围

所有测试均覆盖完整端到端链路:

  1. 用户上传图片或文件
  2. 工作流触发
  3. TextIn 医疗报告单解析(OCR + 结构化)
  4. 大模型医学语义理解与异常判定
  5. 结果分析与自然语言输出

统计时间点为: 从文件上传开始,到智能体返回最终分析结果为止。

picture.image

4.2 处理耗时评估(单页文档 P99)

在医疗系统中,稳定性优先于平均性能。因此,本次重点统计 单页医疗文档的 P99 端到端处理耗时

picture.image

4.2.1 测试结果统计

指标项实测结果
平均处理耗时1.3 ~ 1.7 秒
P90 处理耗时≤ 2.2 秒
P99 处理耗时(单页)≤ 2.9 秒

4.2.2 链路耗时拆分

  • 医疗报告 OCR + 结构化解析(TextIn):≈ 0.6 ~ 1.0 秒
  • 医学指标分析与总结(大模型):≈ 0.5 ~ 1.3 秒
  • 工作流调度与输出:≈ 0.2 ~ 0.4 秒

在 200 页混合来源文档测试中,未出现因版式复杂度导致的异常长尾耗时。

👉 结论: 该智能体在真实复杂样本下,单页文档 P99 耗时稳定控制在 5 秒以内,满足在线分析与批量处理的双重需求。

4.3 准确率评估

医疗报告单的“准确率”需要从业务可用性角度进行拆解,而非单一 OCR 字符准确率。

4.3.1 评估维度

维度说明
字段识别准确率指标名称、数值、单位、参考区间
结构完整性是否存在漏项、错位、结构断裂
异常判定准确率是否正确识别异常及方向
语义一致性分析结论是否严格基于原始数据
结果稳定性同类报告多次解析一致性

4.3.2 实测结果

基于 200 页样本统计:

  • 核心字段识别准确率:≥ 97%
  • 异常指标判定准确率:≥ 98%
  • 结构完整率:接近 100%
  • 未出现虚构指标或脱离报告内容的分析结论

关键工程设计点在于:

大模型仅基于 TextIn 输出的结构化结果进行分析,不直接对原始图片进行推理,从架构层面规避“幻觉”。


4.4 成本对比(vs 原人工流程 / 传统方案)

4.4.1 原人工处理成本

以常见业务配置估算:

  • 人工录入人员成本:30~60 元 / 小时
  • 单人处理能力:8~15 份报告 / 小时
  • 单份报告人工成本:约 2 ~ 7 元 / 份

此外还存在:

  • 复核与返工成本
  • 人员疲劳导致的错误风险
  • 高峰期人力调度成本
  • 合规与审计风险

4.4.2 传统 OCR + 规则脚本方案

该方案通常面临:

  • 模板高度依赖
  • 规则维护成本随医院数量线性上升
  • 新报告类型接入周期长
  • 规则失效风险高

整体特征是:

初期成本低,长期维护成本极高,难以规模化。


4.4.3 当前智能体方案成本结构

本方案的成本主要来源于:

  • TextIn 医疗报告解析 API
  • 大模型推理调用

特点包括:

  • 无人工参与解析与判读
  • 成本与调用量线性相关
  • 结构清晰、可预测
  • 易于规模化扩展

在中大规模使用场景下:

  • 单份处理成本显著低于人工
  • 成本稳定,不随业务高峰波动

4.4.4 综合对比结论

对比维度人工流程OCR+规则脚本本智能体方案
单页耗时3~8 分钟1~3 分钟≤ 3 秒
准确率稳定性人员相关模板相关高且稳定
扩展能力极差一般线性扩展
维护成本极高
合规风险

picture.image

4.5 小结

200 页真实医疗报告单 的混合场景测试中,该医疗报告单分析智能体在:

  • 处理耗时(P99)
  • 业务级准确率
  • 长期成本结构

三个核心指标上,均显著优于人工流程与传统脚本方案,具备稳定上线运行的工程条件,也为后续规模化部署提供了明确的量化依据。

五.心得

真正把医疗报告单分析这件事做下来之后,我最大的感受是:难点从来不在模型能力,而在工程边界的设计。报告来源复杂、版式不统一、字段表达随意,如果一开始就把原始图片直接丢给大模型,结果几乎不可控。反而是把识别、结构化、分析拆清楚,让每一层只做自己该做的事,系统整体才会变得稳定、可信。

这次实践也让我更加确信,在医疗这样的高要求场景里,“能长期稳定运行”远比“偶尔效果惊艳”重要。与其追求一个全能模型,不如构建一条可观测、可控制、可扩展的智能体工作流。当 AI 被放进一个严谨的系统里,它才真正具备走向生产环境的价值。

六.总结

医疗报告单分析并不是一个“识别准确率足够高”就能解决的问题,而是一个长期处于非结构化输入、高容错要求与强合规约束交叉地带的工程系统问题。 从拍照上传、扫描件到系统导出文件,从体检报告到检验科化验单,不同来源、不同版式、不同质量的报告,共同构成了医疗业务中最真实、也最复杂的数据入口。

本文围绕这一现实问题,完整拆解并实现了一套可工程化落地的医疗报告单分析智能体方案。该方案并未试图用单一模型“端到端解决一切”,而是通过工作流编排 + 医疗专用解析模型 + 通用大模型语义分析的分层架构,将“识别”“结构化”“医学理解”“结果表达”明确解耦,使系统在复杂输入下仍具备可控性与稳定性。

在真实规模的 200 页混合来源医疗文档测试中,系统在端到端处理耗时、核心字段准确率、异常判定稳定性等关键指标上表现稳定,P99 单页处理耗时控制在秒级范围内,能够满足在线分析与批量处理的双重需求。同时,通过让大模型仅基于结构化结果进行推理,从架构层面有效规避了医疗场景中最敏感的“幻觉风险”,保证分析结论始终可追溯、可审计。

从工程视角看,该方案的核心价值并不在于“替代医生决策”,而在于替代大量低价值、重复性强、且容易出错的人工整理与初步分析工作。它为医生、质控人员和运营系统提供的是一致、稳定、可扩展的基础分析能力,而非主观判断的替身。

从业务与成本结构上看,相较人工录入与传统 OCR + 规则脚本方案,该智能体在规模化使用时具备更清晰、可预测的成本模型和更低的长期维护负担,也更适合在多机构、多报告类型的复杂环境中持续演进。

总结来看,这套医疗报告单分析智能体并非一次性产品,而是一种可持续迭代的工程范式: 它强调架构分层而非模型堆叠,强调稳定性而非极限指标,强调可控边界而非“全自动决策”。在医疗这一高度谨慎的行业中,这种设计取向,往往比单点性能突破更具现实价值。

未来,随着报告类型的进一步扩展、医学知识图谱与临床规则的逐步引入,该体系仍具备清晰的演进路径,也为更多医疗文档自动化场景提供了一种可复制、可落地的参考范式。

TextIn 注册(送 3000 页体验):https://www.textin.com/register/code/KKBKQ6 火山引擎开发者社区:https://developer.volcengine.com/

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山 Viking AI 搜索解决方案白皮书
本白皮书立足火山引擎 AI 搜索的产业实践前沿,以工程化思维解构 AI 搜索的全流程落地路径,为有转型需求的企业与开发者打造一站式指南。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论