新加坡国立大学:Lora提升小型大语言模型的钓鱼邮件检测性能

大模型向量数据库机器学习

发布时间:2025年04月29日

如遇无法添加,请+ vx: iamxxn886


  1. 钓鱼邮件识别现状

钓鱼邮件始终是网络安全领域的重大威胁,对个人与企业都造成严峻风险。多年来,检测技术不断演进:

  • 从早期的规则过滤和黑名单机制
  • 到朴素贝叶斯、支持向量机等传统机器学习算法
  • 再到决策树等数据挖掘技术,每次突破都推动着邮件检测领域的发展。

近年来,深度学习为钓鱼检测注入了新活力。深度神经网络能自动提取邮件的高维特征,先后尝试了CNN、RNN等经典架构。随着Transformer模型的崛起,其语义理解能力很快被应用于钓鱼检测——从擅长上下文理解的BERT等编码器模型,到参数量暴涨的GPT等解码器大模型,语言模型正成为检测利器。

但现有方案存在明显缺陷:高性能模型往往体积庞大。

例如基于LLaMA-3.1-70b和GPT-4构建的检测系统虽能达到99%准确率,但动辄千亿参数带来的计算成本令人却步。

为此,采用LLaMA-3.2-3B-Instruct等轻量模型(约30亿参数),可在消费级GPU流畅运行。但直接使用效果不尽人意——Qwen2.5-1.5B准确率仅38.8%,LLaMA-3.2-3B也仅58.7%。针对这一困境,本文作者开发了一套提升小模型检测性能的创新方案(如下图)。

picture.image

  1. 方法剖析

2.1 提示词工程

经过指令微调的大型语言模型(LLM)虽能理解人类指令,但提示词设计仍会显著影响其任务表现。

若直接要求LLM输出"钓鱼"或"安全"作为判断标签,模型往往难以严格遵循格式要求 ,不仅增加了结果提取难度,还影响了整体可用性。更值得注意的是,当限定仅输出单个标签时,LLM会表现出明显的判断偏好——无论输入内容如何,都会强烈倾向于某一特定标签 。这很可能是因为单一标签的输出要求与LLM擅长的开放式生成特性相悖。

为此,优化了提示策略:先让模型阐述判断依据 ,再用特殊符号标注最终结论。这种设计既发挥了LLM的生成优势,又能确保输出结果格式统一且易于提取。

2.2 解释增强微调

预训练-微调模式已被证明能显著提升大语言模型(LLM)在下游任务中的表现。

最初尝试直接用钓鱼邮件数据集微调小型LLM,却发现检测性能提升有限。这是因为生成式LLM虽擅长开放式文本生成,但强制其输出"钓鱼/安全"这类封闭式答案,与其预训练目标存在偏差。

picture.image

如上图,论文团队创新性地将训练目标扩展为"标签+解释"的组合。通过GPT-4o-mini为原始邮件标签生成解释,构建出包含四要素(主题、正文、解释、标签)的增强数据集。这种设计使微调任务更贴近LLM的开放式生成特性,不仅提升模型效果,还能通过解释机制减少幻觉问题,增强检测可信度。

考虑到算力限制,采用 LoRA 进行微调。

2.3 模型集成

不同大语言模型(LLM)各有所长,使用两种集成方案来提升钓鱼检测效果:

  • 1)置信度集成 - 根据LLM输出的词元对数概率计算置信分,择优选取最终答案;模型输出的逻辑值经softmax层转换为词元概率。通过将各词元logprobs取指数后连乘,再对结果开N次方根(N为序列长度),即可得到词元概率的几何平均数,即长度归一化(LN)置信分。
  • 2)多数表决 - 以多数模型的共识作为判定依据;采用三款微调后的小型LLM:LLaMA-3.2-3B-Instruct、Phi-4-mini-Instruct和Qwen-2.5-1.5B-Instruct。当目标邮件的分类结果出现分歧时,我们遵循"少数服从多数"原则。
  1. 效果评估

通过系列实验验证方法的有效性。选用Span Assassin数据集,在包含1069封邮件的独立测试集上开展评估。

实验采用:

  • LLaMA-3.2-3B-Instruct(30亿参数)
  • Phi-4-mini-Instruct(38亿参数)
  • Qwen-2.5-1.5B-Instruct(15亿参数)

单张RTX 3090显卡即可完成推理和微调,通过限制序列长度有效规避显存溢出风险。实验流程依次为:基于提示工程的零样本测试→解释增强微调→模型集成实验,并通过消融实验突显训练数据解释增强带来的性能飞跃。

评估体系:采用精确率(Precision)、召回率(Recall)和F1值三大经典指标:

picture.image

3.1 朴素提示工程效果评估

选取了LLaMA、Phi等轻量级大语言模型作为基准测试对象。相较于GPT-4等具有数千亿参数的超大模型,这些"小个子"仅有约30亿参数。实验采用提示工程引导模型:先输出推理过程,再用###标记答案。

picture.image

研究发现:

  1. 基础提示方案在轻量模型上表现欠佳,准确率不足0.7,F1值徘徊在0.5左右;
  1. 模型体积直接影响性能,1.5B参数的Qwen模型准确率仅0.388,较3.8B的Phi-4-mini骤降40%。

3.2 解释增强微调效果分析

从Spam Assassin训练集中抽取1000个样本进行解释增强处理,并采用LoRA 进行模型微调。

将微调后的小型语言模型与朴素贝叶斯、支持向量机(SVM)、XGBoost等传统机器学习模型,以及GPT-3.5-Turbo、GPT-4o-mini和LLaMA3.1-70B-Instruct等大模型进行对比。

传统方法使用Sentence-BERT的paraphrase-MiniLM-L3-v2模型生成邮件嵌入向量作为特征。

picture.image

微调后的小型模型表现亮眼:

  • LLaMA-3.2-3B-Instruct的准确率和F1值分别跃升至0.963和0.928;
  • Phi-4-mini提升至0.968和0.944;Qwen-2.5-1.5bInstruct准确率暴涨122%。

更令人惊喜的是,这些"小个子"甚至超越了参数量级更大的模型——Phi-4-mini的准确率分别领先GPT-3.5-Turbo 27.8%、LLaMA3.1-70B 21.8%、GPT-4o-mini 2.1%。

虽然其性能与传统机器学习方法相当,但小型语言模型还能输出人类可读的判断依据,展现出独特优势。

实验证明,经过解释增强微调的小模型在钓鱼邮件检测任务中表现卓越,部分指标甚至超越主流方案。

特别值得关注的是,这些精调后的小模型以更少的参数量实现了对大模型的超越,充分验证了作者提出的模型效率优化方法的有效性。

3.3 模型集成

picture.image

在完成多个大语言模型的微调后,通过模型集成来融合不同模型的优势。实验采用置信度加权和多数表决两种集成策略(如上图),其中置信度加权仅整合LLaMA-3.2-3B-Instruct和Phi-4-mini两个模型,而多数表决则综合了全部三个轻量级模型的表现。

数据显示,集成策略将检测准确率提升至0.975左右,F1分数分别达到0.953和0.959。这不仅增强了钓鱼邮件识别的可靠性,还提升了模型稳定性。不过相较于微调带来的显著提升,集成策略的增益空间较为有限

3.4 消融实验

通过添加邮件分类解释来优化微调数据,使其更贴近大语言模型擅长的开放文本生成模式。为验证效果,对比了常规微调与解释增强微调的实验结果(如下表)。

picture.image

研究发现,缺失解释的微调数据会导致性能大幅下滑:

  • LLaMA-3.2-3B-Instruct准确率暴跌40.7%,F1分数从0.928断崖式跌至0.219;
  • Qwen-2.5-1.5B-Instruct准确率和F1分数分别下降36.4%和26.0%;
  • 表现最稳健的Phi-4-mini也出现了15.1%准确率和27.1%F1分数的下滑。

这些消融实验充分证明,解释增强能有效将钓鱼邮件检测任务从封闭预测转化为开放生成,从而显著提升微调效果。

4 局限性

论文中的方案显著提升了小型LLM在钓鱼邮件检测中的表现,使3B规模的模型性能超越LLaMA-3.1-70B-Instruct等大模型。但受研究条件所限,仍存在以下不足:

  • 数据维度:当前仅基于SpamAssassin数据集验证,需扩展更多数据集以充分验证方案普适性
  • 迁移能力:未探究模型迁移性能,未来需针对小型LLM设计专项优化方案
  • 成本量化:虽小型LLM推理成本优势明显,但尚未建立精确的成本效益评估体系

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论