Apollo：一个开源轻量级多语言医疗大型语言模型（0.5B、1.8B、2B、6B和7B） - 文章 - 开发者社区

Apollo是一个轻量级多语言医疗大型语言模型（LLM），旨在将医疗人工智能（AI）的进步扩展到全球61亿人口。Apollo项目包括创建多语言医疗数据集ApolloCorpora和基准测试XMedBench。

Apollo概述

picture.image

Apollo模型在多语言医疗基准测试中表现出色，尤其是在相对较小的模型规模（ 0.5B、1.8B、2B、6B和7B ）中，实现了与同等规模模型相比的最佳性能。特别是Apollo-7B，是70B的最先进的多语言医疗LLM。

Apollo支持的语言区域，包括英语、中文、法语、西班牙语、阿拉伯语和印地语

picture.image

ApolloCorpora数据集

涵盖了英语、中文、印地语、西班牙语、法语和阿拉伯语，

这些语言覆盖了全球132个国家和地区的61亿人口

。数据集的构建哲学是提供一种轻量级、可复现的解决方案，以促进科学社区的进一步探索。数据集的结构和收集过程详细介绍了从书籍、临床指南、百科全书、论文、在线论坛和考试中收集的数据。

ApolloCorpora的分类和Token统计

picture.image

Apollo

Apollo训练细节：

训练小型模型的初衷（Training the Small Model）： Apollo项目旨在训练小型模型，以便在医疗设备上进行离线推理，提高医疗人员的工作效率。

小型模型对于计算资源有限的研究人员来说非常友好，有助于推动该领域的探索和新问题的提出。

训练方法（Training Method）： Apollo项目采用了一种新的方法，将预训练语料库重写为问答对（QA pairs），以减轻继续预训练可能对模型问答能力造成的损害。

项目还采用了优先采样（priority sampling）方法，以实现继续预训练和指令调优（Instruction Tuning）之间的平滑过渡。

训练设置（Training Settings）：预训练语料库的数据项优先级设置为16，指令调优阶段的数据项优先级设置为2。

模型训练的批量大小（Batch size）设置为256，学习率（learning rate）设置为1e-4，余弦调度器（Cosine scheduler）的预热率（warm up rate）设置为0.03。

XMedBench基准测试

X MedBench基准测试选择了本地的多项选择任务来评估模型的医疗知识。结果显示，开源和闭源模型之间的差距正在缩小，而Apollo系列模型在同等规模的模型中表现最佳。

不同医疗问题回答模型的性能比较

picture.image

Apollo模型在大型模型中的应用

通过代理调优（Proxy Tuning）来提升大型模型的多语言医疗能力。

代理调优是一种轻量级模型无关的解码方法，它利用小型预训练模型（如Apollo）的输出来指导大型基础模型（如Qwen-7B）的调整，从而避免直接对大型模型进行参数微调。

在这种方法中，小型模型（Mtuned）在特定任务上进行微调，而大型模型（Mbase）则通过应用小型模型的logit偏移量来同步预测分布。

大模型代理调优效果对比

picture.image

最后，提出了一个研究问题，即不同语言的医疗数据是否能够互补或相互损害。通过实验，发现多语言医疗语料库对医疗LLM有益，尽管在多语言训练中存在潜在的风险，但倾向于相信多语言训练的有效性，并建议将多语言训练中的冲突或潜在的本地特异性削弱视为未来研究的领域。


          
Apollo: Lightweight Multilingual Medical LLMs towards Democratizing Medical AI to 6B People
          
https://arxiv.org/pdf/2403.03640.pdf
          
https://github.com/FreedomIntelligence/Apollo
          
https://apollo.llmzoo.com/#/