备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
大型模型是人工智能领域的一个热门研究话题。利用其生成能力有可能提高医疗服务水平和质量。
针对现有大型语言模型在准确性和医学应用方面的局限性,本文提出了一种名为MedGo的中医疗大型语言模型。
MedGo使用高质量的无监督医学数据、有监督数据和偏好对齐数据进行训练,旨在提高其在医学任务中的多样性和精确度。
该模型通过公共CBLUE基准测试和手工构建的数据集ClinicalQA进行评估。结果表明,MedGo在各种中文医学信息处理任务上取得了 promising 的性能,在CBLUE评估中位居第一。
此外,在作者的构建数据集ClinicalQA上,MedGo超过了其基础模型Qwen2,突显了其改进自动医学问题回答和临床决策支持的潜力。
这些实验结果表明,MedGo在医学领域具有强大的信息处理能力。
目前,作者已经成功地将MedGo部署在上海东方医院。
1 Introduction
医疗服务对每个人的福祉至关重要,在保障人类生命和健康方面发挥关键作用,并在改善人们整体健康状况方面具有决定性价值。然而,医疗保健领域面临几个关键挑战。一个重要问题是不同地区医疗服务质量的巨大差异,限制了患者获得持续、高质量医疗保健的途径。这种区域差异因医疗专业行人显著短缺和分布不均而加剧。熟练医疗行人的短缺尤其严重,尤其是在资源有限的偏远地区和基层卫生保健设施。这些挑战严重影响医疗服务的获得性和公平性。解决这些问题需要技术创新,例如应用人工智能(AI),以提高护理交付的效率和质量。通过集成像大型语言模型这样的AI技术,医疗系统有可能弥合这些差距,为服务不足的地区提供更一致、可靠、便捷的医疗服务。
近年来,大型语言模型(LLMs)[3] 已成为人工智能领域[12] 最重要的研究方向之一,显著推动了复杂人类语言的理解、生成和处理。LLMs 在法律[4] 和金融[5]等领域取得了巨大进步,表明它们有可能颠覆这些领域。然而,在医学领域[6, 7] 的应用却面临独特的挑战。首先,医疗保健对生成的内容具有很高的准确性,因为诊断或建议的错误可能会对患者健康产生严重后果。
其次,由于医疗决策的高风险性质,模型输出的解释性非常强。许多 AI 模型的“黑箱”[8] 特性在临床应用中存在困难,因为医疗专业人士需要了解模型建议背后的推理过程[9]。此外,医疗保健涉及各种专业任务,如疾病分类、医疗记录生成和知识提取。传统 LLMs 通常缺乏进行这些专业任务的训练,限制了它们在处理医疗领域复杂性和需求方面的能力[10, 11]。解决这些挑战对于将 LLMs 成功整合到临床实践中至关重要。
为了应对这些挑战,本文提出了一种名为MedGo的专业中文医疗大型语言模型,旨在提高医疗信息处理能力,支持各种医疗应用。MedGo的构建涉及创建一个大规模、领域特定的医疗数据集,包括临床指南、权威医学教科书、专家共识报告、科学文献和案例研究。这些多样化的数据来源覆盖了广泛的医学知识,使MedGo能够深入理解该领域。该模型通过一种结构化的三阶段方法进行优化。首先,在大量医学文本上进行广泛的预训练,以建立坚实的基础理解。然后,进行监督细调(SFT),以提高模型在特定领域执行任务的能力,例如问答、命名实体识别和关系提取。最后,采用偏好对齐技术根据专家反馈改进响应质量,从而增强模型在实际临床设置中的适用性。
为了验证其能力,MedGo使用了公开的中文生物医学语言理解评估(CBLUE)基准1,该基准涵盖了多种医学信息处理任务。此外,作者还构建了ClinicalQA数据集,以专门评估MedGo在临床场景中的性能。实验结果显示,MedGo在CBLUE基准和ClinicalQA数据集中都取得了令人满意的结果,表明其在处理各种医疗任务和提供可靠临床响应方面的强大性和有效性。这些结果强调了MedGo在医疗环境中的实际应用潜力,有助于改善医疗服务质量和效率。
2 Related Work
早期医学语言模型,如BioBERT[12]和ClinicalBERT[13],基于基础BERT架构开发,主要通过微调在特定医疗任务上表现出色。这些模型在临床自然语言处理(NLP)应用方面做出了巨大贡献,尤其是在医疗命名实体识别、关系提取和临床文本分类等任务上。尽管取得了这些进展,但它们的模型大小有限,训练数据集的范围也受到限制,这尤其体现在理解更细腻的临床叙述和复杂的多元医学推理方面。此外,它们的有效性往往局限于狭窄的任务定义,使其在需要深入上下文理解和决策能力的更广泛的实际临床场景中推广使用变得困难。
近年来,随着生成式模型的快速发展,特别是像GPT-3和GPT-4这样的模型[14, 15],在规模、架构和整体性能方面取得了显著改进。这些改进使得模型更加复杂,能够理解和生成复杂的自然语言。例如,GatorTronGPT[16],该模型在去识别的临床文本上预训练了超过900亿个 Token ,在各种临床自然语言处理(NLP)任务上取得了显著的结果。这些任务包括临床概念提取、医疗问答和医疗信息检索,GatorTronGPT在这些任务中的准确性和效率都优于早期的模型。
此外,像ChatGPT[17]这样的生成式LLM在自动化日常医疗记录方面具有巨大的潜力,有助于患者和医护行人之间的顺畅沟通,并通过会话提供实时的临床决策支持。通过利用这些能力,生成式LLM可以改变传统的医疗实践,实现更高效的工作流程和更好的患者结果。这些发展强调了生成式LLM在医疗领域的变革性影响,为提高患者护理、改善临床决策质量和减轻医务行人的工作负担提供了新的途径。因此,这些模型有望彻底改变医疗保健的交付方式和患者管理。
除了在文本处理方面,最近多模态大型模型在医学领域也取得了显著的突破[18]。这些模型能够将文本数据与医学影像、基因组数据和其他模态相结合,帮助医生做出更全面的诊断和治疗决策。Gemini-Med[19],基于Gemini架构的LLM,在多模态医学问答、知识提取和文本摘要任务中表现出色,显示出在医疗领域的巨大应用潜力。例如,MMedAgent[20]是一个结合多种医疗工具的多模态医学 Agent ,显著提高了多个任务上的医学影像分析效率和报告生成。此外,GPT-4o系列的多模态模型在医学影像识别和报告生成方面也表现出了强大的能力。Med42引入了一种针对医学大型模型的两阶段微调方法,通过有针对性的微调和对齐,增强其在医疗环境中的适用性。
近年来,我国在医疗大型语言模型(LLMs)方面取得了显著的进展,催生了许多针对特定疾病和专业化领域的模型。这些模型包括ChiMed-GPT[21],AlpaCare[22],Taiyi[23],和MentalLLaMA[24]。这些模型在各种基础模型(如LaMA[25],ChatGLM[26],Baichuan[27])上进行了预训练和微调,融合了专业医学知识和最先进的自然语言处理技术。这些LLM涵盖了广泛的应用,从医疗问答和诊断支持到心理健康分析和中医知识问答。例如,Zhongjing-LLaMA[28]和HuatuoGPT[29]在各种中医应用中表现出色,而像ChatPsychiatrist和MindChat[30]则专注于心理健康支持。同样,ShenNong-TCM-LLM[31]和HuangDI专注于中医专业知识。这些开源模型不仅提高了医疗服务质量和效率,还推动了医学AI领域的创新。然而,尽管取得了这些进展,诸如知识错觉和解释性差的问题仍然限制了它们在临床实践中更广泛的采用。解决这些问题仍然是开发医学LLM的研究行人的关键关注点。
3 Data
构建大规模、专业的医学数据集对于提高医疗大型语言模型(LLMs)的准确性和可解释性至关重要。首先,模型的准确性直接与其学习复杂医学知识的能力相关。通过引入包括各种医学术语、治疗指南和诊断信息在内的广泛、高质量的数据集,LLMs可以实现更可靠、更具上下文准确性的预测,从而减少知识错觉的发生。此外,使用全面标注的数据集有助于模型在推理过程中识别关键医学命名实体并提取关系,这对于解释生成输出中的决策基础至关重要。
特别是在医学领域,需要理解专业的语言和领域特定知识。构建庞大的中国医学数据集使得LLMs能够准确地理解和生成具有中国医学背景的内容。
在本文中,作者将数据集分为两类:一类是用于初始预训练阶段的无监督数据,以建立基础语言能力;另一类是用于微调的监督数据,其中使用特定任务的标注来细化和提高模型在关键医疗应用上的性能。这种双重方法确保了准确、可解释的模型能够针对特定医疗需求进行定制。
3.0.1 Pre-training Data
这篇论文从多种权威医学资源构建了一个大规模的医学语料库,作为医学大型语言模型训练的基础数据集。该数据集包括15个关键的医学数据类别,如核心医学教科书、全面的医学检查问题库、专家共识声明、临床案例报告、详细医学指南、诊断和治疗方案、医学百科全书、录制医学讲座、专业医学专著和综述,以及学术论文。
数据经过严格的处理步骤,包括全面的数据清洗以消除无关信息,去重以删除冗余条目,以及采取隐私保护措施以确保敏感信息的安全。通过这些过程,作者得到了一个高质量和多样化的数据集,规模约为140亿个 Token 。这个语料库为预训练医学模型提供了基础,使其能够捕捉到广泛的特定领域知识,并提高其在实际医学任务中的总体准确性和适用性。
3.0.2 Supervised Fine-tuning Data
高质量的有监督数据集对于提高模型性能和改善在医疗应用中的泛化能力至关重要。为了构建一个全面且高质量的有监督数据集,作者采用了三个关键策略:从可信的医学数据库收集开源数据,自动合成数据以扩展数据集并覆盖罕见或复杂的案例,以及聘请领域专家进行手动标注以确保标签信息的准确性和相关性。这些结合起来的方法旨在为模型提供丰富的医学知识和实际临床场景,从而提高其鲁棒性、可靠性和在各种医疗任务和实际临床环境中的适用性。
首先,在收集公共数据方面,作者主要获取了CMCQA[32]数据集。CMCQA是一个专门针对中国医学领域开发的广泛对话式问题与回答数据集。该数据集来源于ChunYu医学问答网站,涵盖了45个临床部门的医疗对话材料,包括男科、口腔科和妇产科等。值得注意的是,CMCQA包含了130万个完整的交互会话,相当于1983万个体陈述或约6.5亿个 Token 。此外,为了促进医疗领域对话AI的研究和进步,整个数据集已经开源,鼓励开发医疗对话系统相关领域。这些公共数据集为模型提供了坚实的基础,使其具备基本的医疗问答和对话能力。
其次,为了提高MedGo在生成药物使用信息方面的准确性,本研究采用了一种自动化方法,基于一个包含大量药物使用说明的大型数据库,为模型训练合成指令数据。具体而言,作者收集了一个全面的数据集,包括150,000个药物使用说明,涵盖了药物适应症、禁忌症、不良反应以及推荐的使用和剂量等重要细节。通过这些文件,作者系统地生成了关于药物适应症和禁忌症的问题与答案对,利用大规模数据改善了MedGo的知识库。这种自动化过程极大地扩展了数据集,使模型在药物咨询和用药指导方面具有深入的专业知识。因此,MedGo能够为与主要药物适应症、常见不良反应和关键使用禁忌症相关的问题提供准确答案。这种增强不仅确保了模型的可靠性,还为患者和医护行人提供了有价值的决策支持,最终提高了用药安全和服务质量。
根据临床指南和权威医学教科书,作者利用GPT-4自动生成了一套大量的问题和答案对。这一自动化生成后,作者进行了一个详细的审查过程,由有经验的医生评估和验证了每一对问题和答案的准确性和相关性,以确保数据集的质量和可靠性。通过这种系统化的方法,作者成功地构建了一个包含约50,000个高质量问题和答案对的数据集,这些对都基于可信的临床指南和教育资源。这个数据集在提高模型在医学问题回答任务上的理解和准确性的过程中起着关键作用。
在医疗实践中,医生需要根据患者的主要症状做出初步的疾病诊断。为此,作者根据主要症状信息自动生成相关的咨询数据,这些数据模拟了医生在临床环境中解释患者症状时的诊断推理过程。例如,对于主要症状“患者报告胸痛和呼吸短促”,作者可以生成潜在的诊断考虑,如心绞痛或肺栓塞。这些数据有助于模型学习疾病诊断的思维过程,加强其在临床咨询场景中的应用性,使其能够更准确地理解患者症状并提供合理的建议。
通过上述步骤,作者构建了一个用于医学领域的有监督微调数据集,以进一步训练和优化模型。
为了确保模型的回答符合医学伦理和相关法律法规,作者还融入了一个与安全及人类对齐相关的数据集,称为Safety-Prompts2。这个数据集包含了可能涉及敏感话题、不恰当评论以及正确处理这些问题的方法。通过将Safety-Prompts数据集整合到模型训练中,作者希望模型在面对涉及隐私、伦理或法律事务的敏感问题时,能够提供适当的回答,从而避免提供误导性或有害的答案。例如,当用户询问:“我如何通过非法途径获得处方药?”时,模型应拒绝提供此类信息,并引导用户遵循合法途径获取医疗服务。这种对齐策略确保了模型在实际应用中遵循伦理规范和法律要求,保护用户安全与权益,并防止模型被用于不当目的。
4 Base Large Language Model Selection
为了更好地适应中国医疗环境,本研究需要选择一个在中文文本理解、推理和生成方面具有高性能的预训练模型作为MedGo的基础。因此,作者比较了以下模型:QWen2、GLM4、LLaMA3和Mistral。经过比较,作者选择Qwen2-72B作为基础预训练模型,原因如下:首先,QWen2在中文语义理解和逻辑推理方面表现出色。在医疗场景中,模型需要准确理解专业术语、疾病描述和患者的主观表达。QWen2的优越中文处理能力使其能够更准确地解析复杂的医学文本和对话,提高模型在国内医疗应用中的适用性。这对提高诊断准确性和提供个性化医疗建议至关重要。
其次,在数学能力方面,QWen2在LLaMA3、Mistral和GLM之上有所提升。医学领域通常涉及药物剂量计算、医学影像数据分析以及生物统计学,需要模型具备强大的数学和数据处理能力。QWen2的增强数学性能拓宽了其在医学领域的应用广度和深度,使其能够处理更复杂的医学问题,并支持临床决策和科学研究分析。
首先,QWen2的安全措施与GPT-4相当。在医疗应用中,数据安全和隐私保护至关重要。模型必须遵守严格的伦理标准,避免泄露患者隐私或产生有害建议。QWen2在安全机制方面得到了优化,有效地防止了潜在的安全风险,并确保了模型的输出符合医疗行业的监管要求。
此外,QWen2采用Apache 2.0开源许可,支持私有部署和商业应用。这符合医疗数据不得离开场所的监管要求,使作者能够本地部署模型并确保患者数据始终在受控环境下处理。考虑到所有这些因素,作者决定将QWen2-72B作为作者训练工作的基础LLM。
5 Training
训练MedGo分为三个阶段:预训练、有监督微调以及偏好对齐,如图1所示。本节将单独介绍每个阶段。
### Pre-training
预训练涉及使用各种语言建模任务(如 Mask 语言建模(MLM)、下一句预测(NSP)和句子顺序预测(SOP))在大规模特定领域文本数据上训练基础语言模型(LLM)。例如, Mask 语言建模(MLM)根据上下文词语预测文本中的 Mask 词语,公式如下:
在这个表示中, 表示输入序列 中被遮挡的位置。变量 表示被遮挡位置 的原始 Token 。用 表示去除了或替换了被遮挡 Token 的输入序列。 反映了在未遮挡的上下文中预测正确的 Token 的可能性。MLM 的目标就是最大化这个可能性,从而训练模型从不完整的文本序列中学习上下文表示。
为了提高预训练过程的有效性和效率,作者采用了一系列先进的技术和策略。首先,作者采用了Byte Pair Encoding(BPE)分词器[33],该分词器在处理复杂的医学术语方面特别有效,包括长尾医学词汇和特定的中文医学表达。BPE高效地将单词分解为子词单元,确保了精确的分词。这种方法增强了模型在医学文本中捕捉和理解复杂语义的能力,从而提高了理解和生成能力。此外,通过使用BPE,模型可以有效地处理罕见单词和专业术语,最终提高了在下游医学任务和应用中的性能。
在优化器选择方面,作者采用了AdamW[34]优化器。与传统优化器相比,AdamW结合了自适应学习率和权重衰减机制,在处理大规模医疗数据时提供了更稳定的梯度更新,这在处理稀疏数据和不平衡样本方面表现尤为出色,有助于加速收敛。
为了提高模型训练的效率,作者采用了bf16混合精度训练。这种技术将部分计算精度降低到bf16,不仅降低了内存消耗,而且显著加速了计算速度。此外,作者还利用了ZeRO[35](零冗余优化器)技术,在多GPU分布式训练过程中有效减少了梯度和参数存储中的冗余,从而提高了模型的可扩展性和资源利用率。
最后,FlashAttention[36]技术进一步优化了自注意力机制的计算效率,显著降低了计算复杂性。特别是在处理长序列医学文本时,它实现了更快的训练速度和较低的内存消耗。这些优化措施共同确保了模型在大型医学数据上的预训练可以高效运行并实现卓越性能。
Supervised Fine-tuning
为了提高MedGo在医疗场景中解决特定任务的能力,作者对一系列专业任务进行了监督微调,包括问答(Q&A)、疾病分类、命名实体识别和关系提取。这种方法确保了模型对医疗语境有更深入的理解,能够准确处理和生成相关的医疗信息,从而在各种临床应用中提高性能。为了提高模型微调的效率,作者采用了低秩自适应(LoRA)[37]进行微调,这是一种在降低计算资源和存储需求的同时保持模型性能的方法。
LoRA是一种高效的方法,用于微调LLM。传统微调需要更新模型的所有参数,导致巨大的计算和存储成本,尤其是对于LLM。LoRA通过在模型的权重矩阵中添加低秩增量矩阵,引入低秩矩阵分解,从而只需要训练和存储这些新的低秩矩阵参数。具体而言,LoRA将权重更新表示为两个较小的矩阵的乘积,其秩远低于原始权重矩阵。这种方法大大降低了需要更新的参数数量,降低了内存使用和计算复杂度。同时,模型的原始权重保持冻结,确保在预训练期间获取的知识得到保留。
假设预训练模型中的权重矩阵为 ,传统微调需要更新 的所有参数。LoRA 的核心思想是将权重矩阵更新表示为两个低秩矩阵的乘积,从而减少需要训练的参数数量。
具体而言,LoRA将权重矩阵更新表示为:
在微调过程中,原始权重矩阵 保持不变,仅对增量矩阵 和 进行训练。具体来说,,,且 。
因此,微调后的权重矩阵变为:
在前向传播过程中,对于输入 的输出为:
扩展这个表达式,作者得到:
由于和具有较小的维度,计算和的负担相对较低。
在训练过程中,只有B和A被更新,总共的参数数量等于r乘以(d+k),这远小于在更新整个权重矩阵W时所需的d乘以k的参数数量。当r远小于d和k时,参数数量减少尤为显著。
在这项工作中,作者设置了LoRA超参数如下:rank = 16,alpha = 8,dropout = 0.05。其他超参数设置如下:epochs = 2,batch size = 1,初始学习率 = 2e-5,学习率调度器类型 = 余弦,warm-up比例 = 0.01,梯度累积步数 = 4。
Preference Alignment
为了确保翻译后的内容忠实于原文,同时保持学术论文的专业性和格式,作者将原文中的英文缩写和专业术语保留,并在翻译后进行详细解释。以下是翻译后的结果:
由于强化学习从人类反馈(RLHF)在训练过程中可能不稳定,作者在本研究中采用了直接偏好优化(DPO)方法进行模型对齐。DPO训练更稳定且简单,避免了RLHF中强化学习的不稳定性和复杂性。DPO直接利用人类偏好数据优化模型参数,无需训练奖励模型,从而减少计算资源和时间消耗。在医学领域,模型安全性和可靠性至关重要;DPO方法使控制模型行为更容易,降低生成意外或有害输出的风险,并确保模型响应符合医学伦理和专业标准。
DPO数据集的设计包括三个主要组成部分: Prompt (用户的 Query ),选择的(模型应该产生的理想答案)和拒绝的(不理想的或不符合要求的答案)。具体来说, Prompt 代表用户的 Query ;选择的表示模型应该产生的理想答案;拒绝的表示不理想的或不符合要求的答案。例如:“ Prompt ":"你好","选择的":"你好,很高兴认识你","拒绝的":"走开,别烦我"。
这一部分数据是根据医生的实际反馈收集的。具体来说,MedGo被要求回应医生在临床实践中遇到的常见问题,医生通过将每个回复 Token 为“可接受”或“不可接受”的方式提供反馈。通过这种方法,大约收集了1万多个经过手标处理的反馈数据点,以便于模型训练。
6 Experiments
在本研究中,所有实验均使用PyTorch3框架进行,并利用HuggingFace Transformers库和HuggingFace4 PEFT(参数高效的微调)模块。实验在8个服务器上进行,每个服务器都配备了8*NVIDIA A100-SXM4-80GB GPU。这种强大的硬件和软件设置确保了训练和微调过程的高效执行,实现了作者实验的高计算性能和可扩展性。这种配置对于管理大规模数据集和复杂模型架构至关重要,以确保在MedGo训练中实现可重复性和最佳结果。
Results of CBLUE
为了全面评估MedGo在各种医疗任务上的性能,作者使用CBLUE[40] 3.0基准进行了实验。CBLUE包括18个多样化的任务,涵盖广泛的医疗文本信息处理需求,包括实体识别、关系提取和事件提取。它还包括与医疗检索、术语标准化、医疗文本分类、医学句子的语义关系判断以及高级任务如医疗文本理解和生成等相关的任务。CBLUE基准为评估MedGo在处理医疗自然语言处理任务的有效性和泛化能力提供了全面的评估框架。MedGo在CBLUE基准上的结果如表1所示。
实验结果显示,MedGo在各种医疗自然语言处理任务中取得了妥协的性能,包括知识提取、对话和文本分类。在知识提取、对话和分类等任务中,MedGo优于Qwen2-72B模型。这表明模型的预训练和微调步骤有效增强了其在医学领域的能力。由于该模型未针对检索任务进行优化,因此在医学段落搜索任务KUAKE-IR上的性能相对较差。CBLUE评估基准的整体分数是通过所有评估任务分数的平均值得到的,即对每个任务分数进行宏观平均。值得注意的是,IMCS-V2-SR任务提供了两个评价指标(句子级F1分数和对话级F1分数);这两个指标分别计入总分数计算。
医鸽在CBLUE 3.0评估中位居榜首,即使未参与文本到数据转换(Text2DT)任务。这一成就展示了医鸽模型在中国医学自然语言处理任务中的有效性。
Results of ClinicalQA
为了验证MedGo是否能满足临床医生的实际需求,作者构建了一个高质量的包含约15,000个中国医疗咨询选择题的数据集,由医学专家编写。这些问题主要来源于医生在长期临床实践中积累和整理的常见疾病诊断和治疗问题。涵盖广泛的医学领域,该数据集旨在反映真实的医疗咨询场景。
每道问题包含四个选项,其中一个是手工筛选的,其余三个是由GPT-4生成的。为确保答案的准确性和科学性,作者采用了严格的双重审阅机制。两名医学生独立评估并初步标注每个选项。如果在他们的评估中出现差异,作者会涉及主治医师 Level 的医疗专家进行复查。这些专家全面评估有争议的选项,结合临床经验和专业知识决定是否接受或替换选项。这一严格的审查过程确保了数据集的高质量和可信度。
最终,作者成功构建了ClinicalQA数据集,其中包含15,000个高质量的中医疗咨询选择题。这个数据集不仅内容丰富、专业度高,而且在问题和答案之间的对齐方面也达到了很高的标准,为医学自然语言处理领域的研究奠定了坚实的基础。作者相信,这个数据集将有助于推动智能医疗应用的发展,如医疗问答系统和自动诊断,进一步促进人工智能在医疗领域的应用和整合。
作者比较了三种模型的性能:QWen2-72B,GPT-40[41],和MedGo,结果汇总在表2中。研究发现,GPT-4o 表现出色。此外,利用高质量的中文医疗数据优化 QWen2-72B 模型在该项目数据集上的性能显著提高。这突显了利用专业医疗数据提升模型在医学领域能力的巨大影响。
7 Conclusion
作者成功开发了一种医学大型语言模型MedGo,该模型基于广泛的医学文本、监督微调数据和偏好对齐数据。该模型通过三个阶段构建:预训练、微调和偏好对齐。这种多阶段训练策略使MedGo能够从医学文本中捕获复杂的语义和专业知识,显著提高了其在医学领域的理解和生成能力。
为了全面评估MedGo的实用应用性能,作者在公共CBLUE基准测试和作者的专有ClinicalQA数据集上对其进行了测试。
结果表明,MedGo在医学领域的各种自然语言处理任务上实现了妥协的性能,包括问答、信息提取和临床决策支持。这些结果确认了MedGo的有效性和实用性,展示了其在医疗实践中的潜力。
在未来,作者计划将MedBench5等额外的数据集纳入,以进一步评估MedGo。这将使作者能够评估其在更广泛的医学子领域和任务类型上的性能。作者还将持续扩大和优化训练数据,以提高模型的准确性和泛化能力。一个未来的关键举措是将MedGo模型和ClinicalQA数据集开源。
[0]. MedGo: A Chinese Medical Large Language Model.