新加坡国立大学：Lora提升小型大语言模型的钓鱼邮件检测性能 - 文章 - 开发者社区

发布时间：2025年04月29日

如遇无法添加，请+ vx: iamxxn886

钓鱼邮件识别现状

钓鱼邮件始终是网络安全领域的重大威胁，对个人与企业都造成严峻风险。多年来，检测技术不断演进：

从早期的规则过滤和黑名单机制
到朴素贝叶斯、支持向量机等传统机器学习算法
再到决策树等数据挖掘技术，每次突破都推动着邮件检测领域的发展。

近年来，深度学习为钓鱼检测注入了新活力。深度神经网络能自动提取邮件的高维特征，先后尝试了CNN、RNN等经典架构。随着Transformer模型的崛起，其语义理解能力很快被应用于钓鱼检测——从擅长上下文理解的BERT等编码器模型，到参数量暴涨的GPT等解码器大模型，语言模型正成为检测利器。

但现有方案存在明显缺陷：高性能模型往往体积庞大。

例如基于LLaMA-3.1-70b和GPT-4构建的检测系统虽能达到99%准确率，但动辄千亿参数带来的计算成本令人却步。

为此，采用LLaMA-3.2-3B-Instruct等轻量模型（约30亿参数），可在消费级GPU流畅运行。但直接使用效果不尽人意——Qwen2.5-1.5B准确率仅38.8%，LLaMA-3.2-3B也仅58.7%。针对这一困境，本文作者开发了一套提升小模型检测性能的创新方案（如下图）。

picture.image

方法剖析

2.1 提示词工程

经过指令微调的大型语言模型（LLM）虽能理解人类指令，但提示词设计仍会显著影响其任务表现。

若直接要求LLM输出"钓鱼"或"安全"作为判断标签，模型往往难以严格遵循格式要求 ，不仅增加了结果提取难度，还影响了整体可用性。更值得注意的是，当限定仅输出单个标签时，LLM会表现出明显的判断偏好——无论输入内容如何，都会强烈倾向于某一特定标签 。这很可能是因为单一标签的输出要求与LLM擅长的开放式生成特性相悖。

为此，优化了提示策略：先让模型阐述判断依据 ，再用特殊符号标注最终结论。这种设计既发挥了LLM的生成优势，又能确保输出结果格式统一且易于提取。

2.2 解释增强微调

预训练-微调模式已被证明能显著提升大语言模型（LLM）在下游任务中的表现。

最初尝试直接用钓鱼邮件数据集微调小型LLM，却发现检测性能提升有限。这是因为生成式LLM虽擅长开放式文本生成，但强制其输出"钓鱼/安全"这类封闭式答案，与其预训练目标存在偏差。

picture.image

如上图，论文团队创新性地将训练目标扩展为"标签+解释"的组合。通过GPT-4o-mini为原始邮件标签生成解释，构建出包含四要素（主题、正文、解释、标签）的增强数据集。这种设计使微调任务更贴近LLM的开放式生成特性，不仅提升模型效果，还能通过解释机制减少幻觉问题，增强检测可信度。

考虑到算力限制，采用 LoRA 进行微调。

2.3 模型集成

不同大语言模型（LLM）各有所长，使用两种集成方案来提升钓鱼检测效果：

1）置信度集成 - 根据LLM输出的词元对数概率计算置信分，择优选取最终答案；模型输出的逻辑值经softmax层转换为词元概率。通过将各词元logprobs取指数后连乘，再对结果开N次方根（N为序列长度），即可得到词元概率的几何平均数，即长度归一化（LN）置信分。
2）多数表决 - 以多数模型的共识作为判定依据；采用三款微调后的小型LLM：LLaMA-3.2-3B-Instruct、Phi-4-mini-Instruct和Qwen-2.5-1.5B-Instruct。当目标邮件的分类结果出现分歧时，我们遵循"少数服从多数"原则。

效果评估

通过系列实验验证方法的有效性。选用Span Assassin数据集，在包含1069封邮件的独立测试集上开展评估。

实验采用：

LLaMA-3.2-3B-Instruct（30亿参数）
Phi-4-mini-Instruct（38亿参数）
Qwen-2.5-1.5B-Instruct（15亿参数）

单张RTX 3090显卡即可完成推理和微调，通过限制序列长度有效规避显存溢出风险。实验流程依次为：基于提示工程的零样本测试→解释增强微调→模型集成实验，并通过消融实验突显训练数据解释增强带来的性能飞跃。

评估体系：采用精确率（Precision）、召回率（Recall）和F1值三大经典指标：

picture.image

3.1 朴素提示工程效果评估

选取了LLaMA、Phi等轻量级大语言模型作为基准测试对象。相较于GPT-4等具有数千亿参数的超大模型，这些"小个子"仅有约30亿参数。实验采用提示工程引导模型：先输出推理过程，再用###标记答案。

picture.image

研究发现：

基础提示方案在轻量模型上表现欠佳，准确率不足0.7，F1值徘徊在0.5左右；

模型体积直接影响性能，1.5B参数的Qwen模型准确率仅0.388，较3.8B的Phi-4-mini骤降40%。

3.2 解释增强微调效果分析

从Spam Assassin训练集中抽取1000个样本进行解释增强处理，并采用LoRA 进行模型微调。

将微调后的小型语言模型与朴素贝叶斯、支持向量机(SVM)、XGBoost等传统机器学习模型，以及GPT-3.5-Turbo、GPT-4o-mini和LLaMA3.1-70B-Instruct等大模型进行对比。

传统方法使用Sentence-BERT的paraphrase-MiniLM-L3-v2模型生成邮件嵌入向量作为特征。

picture.image

微调后的小型模型表现亮眼：

LLaMA-3.2-3B-Instruct的准确率和F1值分别跃升至0.963和0.928；
Phi-4-mini提升至0.968和0.944；Qwen-2.5-1.5bInstruct准确率暴涨122%。

更令人惊喜的是，这些"小个子"甚至超越了参数量级更大的模型——Phi-4-mini的准确率分别领先GPT-3.5-Turbo 27.8%、LLaMA3.1-70B 21.8%、GPT-4o-mini 2.1%。

虽然其性能与传统机器学习方法相当，但小型语言模型还能输出人类可读的判断依据，展现出独特优势。

实验证明，经过解释增强微调的小模型在钓鱼邮件检测任务中表现卓越，部分指标甚至超越主流方案。

特别值得关注的是，这些精调后的小模型以更少的参数量实现了对大模型的超越，充分验证了作者提出的模型效率优化方法的有效性。

3.3 模型集成

picture.image

在完成多个大语言模型的微调后，通过模型集成来融合不同模型的优势。实验采用置信度加权和多数表决两种集成策略（如上图），其中置信度加权仅整合LLaMA-3.2-3B-Instruct和Phi-4-mini两个模型，而多数表决则综合了全部三个轻量级模型的表现。

数据显示，集成策略将检测准确率提升至0.975左右，F1分数分别达到0.953和0.959。这不仅增强了钓鱼邮件识别的可靠性，还提升了模型稳定性。不过相较于微调带来的显著提升，集成策略的增益空间较为有限 。

3.4 消融实验

通过添加邮件分类解释来优化微调数据，使其更贴近大语言模型擅长的开放文本生成模式。为验证效果，对比了常规微调与解释增强微调的实验结果（如下表）。

picture.image

研究发现，缺失解释的微调数据会导致性能大幅下滑：

LLaMA-3.2-3B-Instruct准确率暴跌40.7%，F1分数从0.928断崖式跌至0.219；
Qwen-2.5-1.5B-Instruct准确率和F1分数分别下降36.4%和26.0%；
表现最稳健的Phi-4-mini也出现了15.1%准确率和27.1%F1分数的下滑。

这些消融实验充分证明，解释增强能有效将钓鱼邮件检测任务从封闭预测转化为开放生成，从而显著提升微调效果。

4 局限性

论文中的方案显著提升了小型LLM在钓鱼邮件检测中的表现，使3B规模的模型性能超越LLaMA-3.1-70B-Instruct等大模型。但受研究条件所限，仍存在以下不足：

数据维度：当前仅基于SpamAssassin数据集验证，需扩展更多数据集以充分验证方案普适性
迁移能力：未探究模型迁移性能，未来需针对小型LLM设计专项优化方案
成本量化：虽小型LLM推理成本优势明显，但尚未建立精确的成本效益评估体系

论文原文: https://arxiv.org/abs/2505.00034
获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
加入社群，+v: iamxxn886