点击蓝字 关注我
热爱生活 热爱发现
本文:2143字 阅读7分钟
近日,著名人工智能学者、斯坦福大学教授吴恩达高度总结了提升生成式 AI 模型能力的提示工程方式,并着重推荐了微软2023年11月发表的论文Medprompt,他观察到以下四种方式能够有效提升模型的输出:
✔编写快速、简单的 prompt,看看效果如何。
✔根据输出不足的地方,迭代地充实 prompt。这通常会导致更长、更详细的 prompt,甚至可能是「mega-prompt」。
✔如果这仍然不够,请考虑少样本或多样本学习(如果适用),或者不太频繁地进行微调。
✔如果仍然不能产生您需要的结果,请将任务分解为子任务并应用智能体工作流。
他推荐如果想深入了解提示策略应该研究微软的Medprompt《Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine》。Medprompt不仅用多策略Prompt解决实际问题,更是让专有模型微调和提示工程的性能进行了正面交锋。
Paper下载地址:
https://arxiv.org/pdf/2311.16452.pdf
01
什么是MedPrompt方法📢
微软的研究人员设计了一个实验来比较微调模型与配备了提示工程框架的基础模型的性能。基础模型GPT-4利用了微软的MedPrompt框架,而Google开发的微调模型Med-PaLM 2则是专门为医疗领域量身定制的。
这套名为MedPrompt的提示工程方法,巧妙地结合了动态小样本选择、自主生成的思维链以及选择洗牌集成等技术,使GPT-4在MultiMedQA等九大医学知识评测数据集上全面超越了最先进的专业模型如Med-PaLM 2。其中在MedQA这一美国医师资格考试的数据集上,MedPrompt将GPT-4的准确率提升到了90.2%,首次突破90%大关,比此前最好成绩高出27%!
02
核心实现方法📢
在这篇论文中,作者采用了多种提示策略来引导GPT-4在医学问答任务上的表现。以下是一些具体的提示例子:
动态少样本选择(Dynamic Few-shot Selection):能够根据你的问题,智能挑选最相关的医学案例,就像你的私人医生了解你的病史一样。
假设我们有一个关于心脏病的问题,我们可以通过动态选择与这个问题相似的少样本来进行提示。
例如:心脏疼痛可能是什么原因导致的?以下是一些类似的心脏病问题:1. 心绞痛的症状是什么?2. 心肌梗死是如何引起的?3. 如何识别心脏病发作的征兆?请根据这些示例回答问题。
自生成的思考链路(Self-generated Chain of Thought):它不仅仅是回答问题,还能够展示整个思考过程,让你清楚知道答案背后的原因。
是一种提示策略,通过让GPT-4自己生成关于问题的思考过程,引导模型进行更深入、更有条理的推理。这种策略有助于提高模型在复杂问题上的表现,尤其是在需要多步骤推理的情况下。
以下是关于自生成的思考链路的详细步骤及示例:
- 为给定的问题提供一个初始提示,要求GPT-4生成一个思考链路。
例如:一位高血压患者应该如何调整饮食?提示:请根据以下步骤回答问题,并提供详细的解释。
- GPT-4生成一个思考链路作为回答。
例如:1. 首先,了解高血压患者的饮食需求和限制。2. 其次,研究对高血压有益的食物和营养素。3. 然后,提供一些建议,以帮助患者在日常饮食中实践这些原则。4. 最后,讨论可能的挑战和如何克服这些挑战,以实现长期的饮食习惯改变。
- 将生成的思考链路作为新提示的一部分,让GPT-4根据这个链路回答问题。
例如:请根据以下思考链路回答高血压患者如何调整饮食:1. 首先,了解高血压患者的饮食需求和限制。2. 其次,研究对高血压有益的食物和营养素。3. 然后,提供一些建议,以帮助患者在日常饮食中实践这些原则。4. 最后,讨论可能的挑战和如何克服这些挑战,以实现长期的饮食习惯改变。
- GPT-4根据新的提示回答问题,提供一个详细的、有条理的答案。
通过自生成的思考链路策略,GPT-4能够对复杂问题进行更深入、更有条理的推理,从而提高其在医学问答任务上的表现。这种方法鼓励模型生成详细的解释和逐步推理,使得答案更具说服力。
选择洗牌集成(Choice Shuffle Ensemble) :答案不是单一的,它会给出多个可能的答案,并告诉你哪个最靠谱
是一种简化的集成学习方法,它通过在多个集成步骤中对答案选项进行洗牌,增加模型预测的多样性,从而提高整体性能。这种方法有助于减轻模型对答案选项顺序的依赖,提高模型的泛化能力。
以下是关于选择洗牌集成的详细步骤及示例:
- 首先,为给定的问题生成一个初始提示,让GPT-4提供一个答案。
例如:哪种药物对治疗胃溃疡最有效?A. 阿司匹林B. 克拉霉素C. 奥美拉唑D. 布洛芬提示:请根据以下选项回答这个问题。 2. 对答案选项进行洗牌:在每次集成步骤中,对答案选项进行随机排序。
例如,第一次洗牌后,选项顺序可能变为:B, A, D, C。 3. 再次生成提示:使用洗牌后的答案选项生成一个新的提示。
例如:哪种药物对治疗胃溃疡最有效?B. 克拉霉素A. 阿司匹林D. 布洛芬C. 奥美拉唑提示:请根据以下选项回答这个问题。
获取新的答案:让GPT-4根据新的提示再次回答问题。
重复步骤1-3:进行多次集成步骤,每次对答案选项进行洗牌并获取新的答案。
选择最一致的答案:从所有集成步骤中选择出现最频繁的答案作为最终答案。
通过这种方法,选择洗牌集成可以降低模型对答案选项顺序的偏好,提高模型在医学问答任务上的鲁棒性。虽然这种方法相对简单,但在论文中展示的实验结果表明,它在提高GPT-4性能方面是有效的。
具体算法示意图
03
MedPrompt的启示📢
文章中的这张图能够给我们说清楚MedPrompt的核心组成部分以及它们在MedQA基准测试中的性能贡献。从图中可以清晰地看出,通过将多种提示工程技术巧妙地组合起来,MedPrompt将GPT-4的医学问答能力逐步提升到了一个新的高度。
这张图以一种直观易懂的方式阐明了MedPrompt的构造逻辑和各组件的作用机制。它启发我们,提示工程不仅要利用语言模型强大的知识和推理能力,还要注重如何引导模型更好地利用这些能力。选择高度相关的示例、鼓励模型自主思考、在决策阶段注入多样性,是MedPrompt的三大关键要素。研究者可以参考这一范式,探索更有效的提示工程流水线,进一步释放语言模型在垂直领域的应用潜力。同时,这些技术组合在医疗领域的成功也为其他专业领域带来了宝贵的借鉴和启示
让我们携手共创更多美好时刻!
如果您发现这篇文章对您有所启发或帮助, 请不吝赐赞,为我***【点赞】、【转发】、【关注】*** ,带你一起玩转AI !
<您的点赞和在看,只有我能够看到。>
微信号 |AICuteMQ