发布时间:2025年04月29日
如遇无法添加,请+ vx: iamxxn886
- 钓鱼邮件识别现状
钓鱼邮件始终是网络安全领域的重大威胁,对个人与企业都造成严峻风险。多年来,检测技术不断演进:
- 从早期的规则过滤和黑名单机制
- 到朴素贝叶斯、支持向量机等传统机器学习算法
- 再到决策树等数据挖掘技术,每次突破都推动着邮件检测领域的发展。
近年来,深度学习为钓鱼检测注入了新活力。深度神经网络能自动提取邮件的高维特征,先后尝试了CNN、RNN等经典架构。随着Transformer模型的崛起,其语义理解能力很快被应用于钓鱼检测——从擅长上下文理解的BERT等编码器模型,到参数量暴涨的GPT等解码器大模型,语言模型正成为检测利器。
但现有方案存在明显缺陷:高性能模型往往体积庞大。
例如基于LLaMA-3.1-70b和GPT-4构建的检测系统虽能达到99%准确率,但动辄千亿参数带来的计算成本令人却步。
为此,采用LLaMA-3.2-3B-Instruct等轻量模型(约30亿参数),可在消费级GPU流畅运行。但直接使用效果不尽人意——Qwen2.5-1.5B准确率仅38.8%,LLaMA-3.2-3B也仅58.7%。针对这一困境,本文作者开发了一套提升小模型检测性能的创新方案(如下图)。
- 方法剖析
2.1 提示词工程
经过指令微调的大型语言模型(LLM)虽能理解人类指令,但提示词设计仍会显著影响其任务表现。
若直接要求LLM输出"钓鱼"或"安全"作为判断标签,模型往往难以严格遵循格式要求 ,不仅增加了结果提取难度,还影响了整体可用性。更值得注意的是,当限定仅输出单个标签时,LLM会表现出明显的判断偏好——无论输入内容如何,都会强烈倾向于某一特定标签 。这很可能是因为单一标签的输出要求与LLM擅长的开放式生成特性相悖。
为此,优化了提示策略:先让模型阐述判断依据 ,再用特殊符号标注最终结论。这种设计既发挥了LLM的生成优势,又能确保输出结果格式统一且易于提取。
2.2 解释增强微调
预训练-微调模式已被证明能显著提升大语言模型(LLM)在下游任务中的表现。
最初尝试直接用钓鱼邮件数据集微调小型LLM,却发现检测性能提升有限。这是因为生成式LLM虽擅长开放式文本生成,但强制其输出"钓鱼/安全"这类封闭式答案,与其预训练目标存在偏差。
如上图,论文团队创新性地将训练目标扩展为"标签+解释"的组合。通过GPT-4o-mini为原始邮件标签生成解释,构建出包含四要素(主题、正文、解释、标签)的增强数据集。这种设计使微调任务更贴近LLM的开放式生成特性,不仅提升模型效果,还能通过解释机制减少幻觉问题,增强检测可信度。
考虑到算力限制,采用 LoRA 进行微调。
2.3 模型集成
不同大语言模型(LLM)各有所长,使用两种集成方案来提升钓鱼检测效果:
- 1)置信度集成 - 根据LLM输出的词元对数概率计算置信分,择优选取最终答案;模型输出的逻辑值经softmax层转换为词元概率。通过将各词元logprobs取指数后连乘,再对结果开N次方根(N为序列长度),即可得到词元概率的几何平均数,即长度归一化(LN)置信分。
- 2)多数表决 - 以多数模型的共识作为判定依据;采用三款微调后的小型LLM:LLaMA-3.2-3B-Instruct、Phi-4-mini-Instruct和Qwen-2.5-1.5B-Instruct。当目标邮件的分类结果出现分歧时,我们遵循"少数服从多数"原则。
- 效果评估
通过系列实验验证方法的有效性。选用Span Assassin数据集,在包含1069封邮件的独立测试集上开展评估。
实验采用:
- LLaMA-3.2-3B-Instruct(30亿参数)
- Phi-4-mini-Instruct(38亿参数)
- Qwen-2.5-1.5B-Instruct(15亿参数)
单张RTX 3090显卡即可完成推理和微调,通过限制序列长度有效规避显存溢出风险。实验流程依次为:基于提示工程的零样本测试→解释增强微调→模型集成实验,并通过消融实验突显训练数据解释增强带来的性能飞跃。
评估体系:采用精确率(Precision)、召回率(Recall)和F1值三大经典指标:
3.1 朴素提示工程效果评估
选取了LLaMA、Phi等轻量级大语言模型作为基准测试对象。相较于GPT-4等具有数千亿参数的超大模型,这些"小个子"仅有约30亿参数。实验采用提示工程引导模型:先输出推理过程,再用###标记答案。
研究发现:
- 基础提示方案在轻量模型上表现欠佳,准确率不足0.7,F1值徘徊在0.5左右;
- 模型体积直接影响性能,1.5B参数的Qwen模型准确率仅0.388,较3.8B的Phi-4-mini骤降40%。
3.2 解释增强微调效果分析
从Spam Assassin训练集中抽取1000个样本进行解释增强处理,并采用LoRA 进行模型微调。
将微调后的小型语言模型与朴素贝叶斯、支持向量机(SVM)、XGBoost等传统机器学习模型,以及GPT-3.5-Turbo、GPT-4o-mini和LLaMA3.1-70B-Instruct等大模型进行对比。
传统方法使用Sentence-BERT的paraphrase-MiniLM-L3-v2模型生成邮件嵌入向量作为特征。
微调后的小型模型表现亮眼:
- LLaMA-3.2-3B-Instruct的准确率和F1值分别跃升至0.963和0.928;
- Phi-4-mini提升至0.968和0.944;Qwen-2.5-1.5bInstruct准确率暴涨122%。
更令人惊喜的是,这些"小个子"甚至超越了参数量级更大的模型——Phi-4-mini的准确率分别领先GPT-3.5-Turbo 27.8%、LLaMA3.1-70B 21.8%、GPT-4o-mini 2.1%。
虽然其性能与传统机器学习方法相当,但小型语言模型还能输出人类可读的判断依据,展现出独特优势。
实验证明,经过解释增强微调的小模型在钓鱼邮件检测任务中表现卓越,部分指标甚至超越主流方案。
特别值得关注的是,这些精调后的小模型以更少的参数量实现了对大模型的超越,充分验证了作者提出的模型效率优化方法的有效性。
3.3 模型集成
在完成多个大语言模型的微调后,通过模型集成来融合不同模型的优势。实验采用置信度加权和多数表决两种集成策略(如上图),其中置信度加权仅整合LLaMA-3.2-3B-Instruct和Phi-4-mini两个模型,而多数表决则综合了全部三个轻量级模型的表现。
数据显示,集成策略将检测准确率提升至0.975左右,F1分数分别达到0.953和0.959。这不仅增强了钓鱼邮件识别的可靠性,还提升了模型稳定性。不过相较于微调带来的显著提升,集成策略的增益空间较为有限 。
3.4 消融实验
通过添加邮件分类解释来优化微调数据,使其更贴近大语言模型擅长的开放文本生成模式。为验证效果,对比了常规微调与解释增强微调的实验结果(如下表)。
研究发现,缺失解释的微调数据会导致性能大幅下滑:
- LLaMA-3.2-3B-Instruct准确率暴跌40.7%,F1分数从0.928断崖式跌至0.219;
- Qwen-2.5-1.5B-Instruct准确率和F1分数分别下降36.4%和26.0%;
- 表现最稳健的Phi-4-mini也出现了15.1%准确率和27.1%F1分数的下滑。
这些消融实验充分证明,解释增强能有效将钓鱼邮件检测任务从封闭预测转化为开放生成,从而显著提升微调效果。
4 局限性
论文中的方案显著提升了小型LLM在钓鱼邮件检测中的表现,使3B规模的模型性能超越LLaMA-3.1-70B-Instruct等大模型。但受研究条件所限,仍存在以下不足:
- 数据维度:当前仅基于SpamAssassin数据集验证,需扩展更多数据集以充分验证方案普适性
- 迁移能力:未探究模型迁移性能,未来需针对小型LLM设计专项优化方案
- 成本量化:虽小型LLM推理成本优势明显,但尚未建立精确的成本效益评估体系
- 论文原文: https://arxiv.org/abs/2505.00034
- 获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- 加入社群,+v: iamxxn886