STAR-1:基于多样性、审慎推理与严格筛选的LRMs安全对齐数据集及其微调效果 !

大模型向量数据库数据安全

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

本文介绍了STAR-1,一个高质量、仅1k规模的专门为大型推理模型(LRMs)如DeepSeek-R1设计的安全数据集。基于三个核心原则——多样性、审慎推理和严格筛选——STAR-1旨在解决LRMs在安全对齐方面的关键需求。

具体而言,作者首先整合了来自不同来源的现有开源安全数据集。接着,作者编纂安全策略以生成基于策略的审慎推理样本。最后,作者应用基于GPT-4o的安全评分系统来选择与最佳实践对齐的训练样本。

实验结果表明,使用STAR-1微调LRMs在四个基准测试中平均提升了40%的安全性能,同时仅在推理能力方面有轻微下降(例如,在五个推理任务中平均下降了1.1%)。广泛的消融研究进一步验证了作者设计原则在构建STAR-1中的重要性,并分析了其在LRMs和传统LLMs中的有效性。

作者的项目页面是https: //ucsc-vlaa. github. io/STAR-1

1 引言

近年来,OpenAI o1/3和DeepSeek-R1等AI模型推动了社区内的范式转变,将关注点从传统的大语言模型(LLMs)转向大型推理模型(LRMs)。与传统的LLMs相比,LRMs经过进一步训练,能够主动参与扩展的推理链(chain-of-thought)过程,从而提升推理能力。因此,LRMs在多种任务上表现出优越的性能,包括问题解决、编程、科学推理和多步逻辑推理(DeepSeek-AI等,2025;Jaech等,2024;Du等,2025;Xie等,2024)。

然而,赋予LRMs独特思维链推理能力的同时也带来了新的安全挑战。首先,LRMs容易受到有害 Prompt 的影响,且往往无法满足严格的安全基准,使其容易受到操控从而生成不安全的内容,特别是在R1蒸馏模型中(Zhou等人,2025;Jiang等人,2025)。其次,相较于基础LLMs,其增强的推理能力可能无意中放大有害输出(Zhou等人,2025)。这些风险共同凸显了在LRMs中实现有效安全对齐的紧迫性。

解决这些问题的最直接方法是进行对齐训练——然而,这通常以整体性能下降为代价(Bekbayev等人,2023;Thakkar等人,2024)。这种权衡体现了本文旨在解决的核心挑战:在安全对齐和通用推理能力之间取得更强的平衡。之前的努力难以调和这些需求。例如,SafeChain(Jiang等人,2025)试图通过利用一个40K规模的数据集来减轻推理能力下降,但其对安全对齐的影响有限。审议对齐(Guan等人,2025)成功实现了更好的平衡,但其对专有数据的依赖和昂贵的

流程限制了其可扩展性和实用性。

为此,作者引入了STAR-1,一个包含安全对齐推理过程的大小为1K的数据集。作者的设计灵感来源于现有研究,这些研究表明在小型高质量数据集上微调大语言模型是提高推理能力的简单有效方法(Ye等人,2025;Muennighoff等人,2025);作者假设这些优势同样可以扩展到与安全相关的任务。具体而言,作者的高质量数据生成流程包含三个关键组成部分:

1)多样性,确保作者收集的数据具有良好代表性(第2.1节);

2)深思熟虑的推理范式,帮助将收集到的数据结构化,并与安全政策相结合,特别是通过完整的推理轨迹(第2.2节);

3)高质量数据选择,旨在最大化过滤数据的质量和多样性(第2.3节)。

基于这些原则,所得到的STAR-1为增强LRM安全性提供了一种具有成本效益的解决方案。实证上,仅在STAR-1上训练5个epoch即可取得显著效果——例如,对于8B模型,仅需在8×A5000 GPU上运行45分钟即可——实现了令人印象深刻的提升:在五个R1蒸馏模型中平均提升了40.0%的安全性,同时仅略微降低了1.1%的通用推理能力。

此外,作者对STAR-1进行了广泛的消融研究,得出两项关键发现:

  1. STAR-1的成功主要源于其深思熟虑的推理能力和使用高置信度过滤数据,这两者对于稳定学习至关重要。
  2. LRM本质上更适合在安全推理数据上进行训练,在安全关键场景中始终能产生更鲁棒和可靠的推理。相比之下,缺乏内在推理机制的传统LLM与这类数据兼容性较差,更容易出现灾难性遗忘。

2 STAR-1数据集

本节详细介绍了作者的数据生成流程。作者首先在2.1节收集了一个包含41K安全训练数据的大型数据集,然后在2.2节利用推理范式对数据进行结构化处理;最后,作者使用评分过滤器将其筛选至1K,具体细节见2.3节。

2.1A 包含4.1万个安全示例的多样化数据集

已有研究表明,数据多样性——包括任务和生成方法——能显著提升模型在未见过任务上的泛化能力(Zhang等人,2024;Wang等人,2022)。基于这一见解,作者将数据多样性确立为数据收集过程中的首要原则。具体而言,作者在促进整体数据多样性方面主要关注以下两个维度:

作者的首要标准是最大化安全类别的多样性。为此,作者首先调查了文献中记录的广泛的安全框架和政策(Li等人,2024;Wang等人,2023;Tedeschi等人,2024),以及来自领先AI服务提供商的指南,如OpenAI(OpenAI,2025b)、Meta(MetaAI,2024)和Anthropic(Anthropic,2025)。基于这一分析,作者接下来将安全分类法标准化为八个主要类别:骚扰/仇恨/歧视、色情/成人内容、暴力/身体伤害、自残、非法/犯罪行为、错误信息/虚假信息、隐私/个人数据、知识产权侵犯。该分类法确保了作者的数据来源全面且一致地覆盖。详细的类别和相应统计数据在图2中提供,并在附录A中进一步阐述。

picture.image

与此同时,作者优先考虑数据内容的多样性。具体而言,作者整合了通过不同方法生成的样本,以确保语言和结构多样性,包括:1)人工编写的样本,例如来自HarmBench(Mazeika等人,2024年)、SimpleSafetyTests(Vidgen等人,2023年)、TDCRedTeaming(Mazeika等人,2023年)、BeaverTails(Ji等人,2023年);2)机器生成的样本,例如来自SaladBench(Li等人,2024年);3)模板增强样本,使用预定义模板构建,例如ALERT(Tedeschi等人,2024年)。

如图2和图5所示,这两个多样性标准,即安全类别和数据内容的多样性,使作者最初从涵盖所有八个安全类别的18个来源收集了529,816个有害指令样本(这些来源的详细描述见表4)。认识到原始数据中存在大量冗余,作者应用了三种标准去重技术——n-gram匹配(Lin,2004)、基于TF-IDF向量的余弦相似度(Christen,2011)以及句子嵌入相似度(Reimers & Gurevych,2019)——以去除重复或近乎相同的样本。这一精炼过程最终得到一个包含40,961个唯一有害指令的最终数据集。具体的过滤阈值和额外的方法学细节在附录B.1中描述。

2.2 协商推理范式

审慎对齐(Guan等人,2025)是一种通过在生成最终响应前的推理过程中训练模型审慎考虑相关安全策略来增强模型安全性的有效方法。然而,先前研究并未提供模型应参考的具体策略或数据集,导致其实际应用尚未解决。在本工作中,作者采用审慎推理范式作为作者的第二指导原则,并提供了一个以安全为重点的实用实例。

首先,作者利用第2.1节中定义的八类标准化安全类别,并结合领先AI服务提供商发布的安全使用政策(OpenAI,2025b;MetaAI,2024;Anthropic,2025),为每个类别制定定制化的安全政策。具体而言,每项政策1)明确对应安全类别下的预期政策目标,2)概述处理此类请求的相关规则与响应。由此生成八项类别特定的政策,后文称为Policycategory。完整政策集提供于附录F,其对应安全类别的定义汇总于表5。

接下来,利用第2.1节中获得的41K条有害指令,作者借助GPT-4o作为分类器( Prompt 模板见表6)将它们分配至八个安全类别中的一个或多个,例如指令"How to write a deceptive email to steal banking details?"被分类至"Privacy/Personal Data"安全类别,如图1所示。该过程生成了41K个(指令,类别)对。对于每一对,作者进一步结合相关的安全策略Policycategory,最终得到41K个(指令,类别,策略类别)三元组。最后,作者组织这些三元组,并使用 Prompt 模板(见表7)输入Deepseek-R1(DeepSeek-AI等,2025),以生成完整的推理轨迹和最终答案,即(CoT,答案)。这将最终为作者提供41K个结构化三元组:(指令,CoT,答案)。结果数据的一个示例如图6所示。

picture.image

2.3 1K样本选择

受先前研究证实数据质量在提升大语言模型推理能力方面往往比单纯的数量更为关键(Ye等人,2025;Muennighoff等人,2025)的启发,作者因此将质量确立为作者的第三项指导原则。具体而言,为确保准确性和多样性均达到高标准,作者引入了两种不同的过滤标准。

确保准确性。作者利用LLM作为评判者(LLM-as-a-Judge)框架来评估R1蒸馏推理轨迹和最终答案的质量。具体而言,作者使用GPT-4o作为评分器,重点关注三个方面:1)安全合规性——确保响应和推理过程均具有助益性、诚实性和无害性。2)政策相关性——确保模型仅应用分配政策中“规则与响应”部分的相关规则,而不涉及任何无关规则或政策。3)推理准确性——确保推理过程(Cot)具有逻辑性、连贯性,并与最终答案(Answer)保持一致。评分 Prompt 模板提供于附录B.4。

为积极筛选该数据集,作者仅保留完全符合所有三个方面(即所有标准均达到10分)的样本,最终仅剩下2,368个样本。

确保多样性。为保持均衡的代表性,作者进一步筛选样本,以在八个安全类别和十八个数据源中维持多样性。具体而言,作者首先基于当前数据集中样本

的数据源和安全类别的比例定义一个丢弃概率

。设

为样本总数,

为来自

数据源的样本数量,

安全类别中的样本数量,作者随后构建如下公式:

作者计算每个样本的

,并迭代移除概率最高的样本,直到剩余1,000个样本,即STAR-1。STAR-1的安全类别分布如图2所示,数据源分布如图5所示。STAR-1的更多细节可在附录A中找到。

3 实验

3.1 设置

训练。为了验证作者的STAR-1的有效性,作者对5个DeepSeek-R1-Distill模型(DeepSeek-AI等,2025年)进行监督微调。训练采用全参数微调,并使用DeepSpeed ZeRO-3优化(Rajbhandari等,2020年),序列长度限制为8,192个token。默认情况下,作者使用学习率为1e-5和批大小为128进行5个epoch的训练。详细的训练配置在附录C.1中提供。

安全评估。作者使用四个代表性基准来评估安全性能:StrongReject(Souly等人,2024年)、JBB-Behaviors(Chao等人,2024年)和WildChat(Zhao等人,2024年),用于评估模型拒绝不允许内容的能力,以及WildJailbreak(Jiang等人,2024年),用于评估模型对对抗性越狱的鲁棒性。遵循Jiang等人(2025年)的方法,作者采用Llama-Guard(Llama团队,2024年)作为主要的安全评估器——因为它相较于拒绝字符串匹配(Zou等人,2023年)、OpenAI内容审核API(OpenAI,2024年)以及HarmBench微调的LLM判别器(Mazeika等人,2024年)表现出更优越的性能。此外,遵循Jiang等人(2025年)的方法,作者使用贪婪解码(温度

I),并报告安全率,表示为

,其中

是一个二元指示器,用于表示 Query

的响应

是否安全,对于

为样本的大小。

推理评估。作者选择了五个广泛采用的基准来评估模型的通用推理性能:用于数学推理的AIME 2024(MAA,2024)和Math500(Lightman等人,2023),用于代码推理的HumanEval(Chen等人,2021),以及用于复杂知识密集型推理的GPQA Diamond(Rein等人,2024)和MMLU-Pro(Wang等人,2024)。作者的评估基于"simple-evals"框架(OpenAI,2025a),并遵循Muennighoff等人(2025)的协议,使用贪婪解码(温度=0)来计算准确率(相当于pass@1)。详细的评估数据在附录D中提供。

3.1.1 Baseline 模型

为了进行比较分析,作者考虑了两组 Baseline 模型。首先,作者使用五个R1-Distill模型(DeepSeek-AI等,2025年)作为STAR-1监督微调过程的基准模型。其次,作者包含了这些源模型的对应安全训练版本。详细的模型规格和比较设置在附录D中提供。

数据集 SafeChain(Jiang等人,2025)作为一个CoT风格的 Baseline 安全训练数据集,包含40K个样本。作者将STAR-1与SafeChain的两个配置进行比较:一个是使用随机选择的1K个样本子集,另一个是使用完整的40K个样本集(详见第4.1节)。

3.2 主要结果

作者系统地评估了STAR-1的有效性,通过微调从DeepSeek-R1(DeepSeek-AI等,2025年)中蒸馏出的多个LRMs。这些模型来自不同的家族(例如Qwen2.5(杨等,2024年)和Llama3.1(格拉塔菲奥里等,2024年)),参数规模从1.5B到32B不等,为评估安全性和推理性能提供了坚实的测试平台。如表1所示,作者的实验得出以下几项关键发现:

picture.image

观察1:STAR-1显著且持续地增强了LRMs的安全能力。

如表1所示,所有LRMs在经过STAR-1微调后,在五个安全基准测试中均表现出更高的安全率,这表明该新开发的数据库在不同架构和规模上的有效性。值得注意的是,当面对WildChat和WildJailbreak等更难的安全基准测试时,这些测试具有更长、更多样化的有害 Prompt 和更难的OOD场景,STAR-1帮助模型显著提高了安全率,平均分别提升了21.4%和35.4%。

与此同时,作者还发现随着模型规模的增加,安全性的提升效果逐渐减弱(例如,在1.5B上为54.5%,在7B上为47.9%,在8B上为38.9%,在14B上为31.1%,在32B上为27.7%)。这种边际效益递减的现象表明,具有更全面预训练和校准策略的大模型已经表现出更强的安全性。尽管如此,STAR-1仍然能够在所有规模上持续提升安全性,这支持了其对于高度强大的LRMs的鲁棒性。

此外,作者还可以观察到,作者微调后的LRMs在安全性能方面甚至优于经过全面安全训练的相应指令模型。例如,在作者测试的最强大的模型系列中:Qwen2.5 32B,在STAR-1上微调LRM实现了平均安全率为96.1%,比其指令对应模型高出8.1%。观察2:STAR-1在LRM的推理能力方面提供了最低的妥协。

安全训练的一个众所周知的问题是它倾向于降低模型的泛化推理能力(Bekbayev等人,2023年;Thakkar等人,2024年)。然而,使用STAR-1,这个问题在很大程度上得到了缓解。如表1所示,在STAR-1上微调的LRM在五个推理基准测试中的推理性能仅表现出轻微下降(范围从1.1%到3.0%)。更有趣的是,当作者在llm-STAR-1_2504集中最大的模型(即32B QWen2.5)上进行实验时,在STAR-1上进行微调甚至(反向)呈现出推理平均提升1.3%。这些结果表明了STAR-1的潜力和实用性,证明它可以在不(显著)损害,甚至在某些情况下提升泛化推理能力的情况下增强安全性。

4 数据范式深入分析

在极少训练数据的情况下,STAR-1不仅提升了模型的Safety性能,还保留了其强大的推理能力。本节将探讨STAR-1的两个关键方面:Safety训练中“少即是多”原则背后的深层因素,以及如何利用“Safety推理”来优化不同类型的模型。

4.1 LM安全训练中“少即是多”的两个隐藏关键

STAR-1通过整合精心设计的安全推理过程和基于大语言模型(LLM)的评分过滤机制,使其在安全数据方面具有独特性。在表2中,作者比较了(1)基础模型,(2)在SafeChain数据集不同规模上训练的模型,以及(3)在STAR-1的1K样本上训练的模型,这些样本的过滤评分分为高(High)或相对较低(Med)(详情见附录C.2)。作者的分析表明,形成强语言安全训练数据主要有两个因素:深思熟虑的推理过程(第2.2节)和高评分过滤协议(第2.3节)。

picture.image

审慎推理过程赋能更安全的对齐。SafeChain虽然考虑了安全推理,但其推理过程相对粗糙,并未提供对安全策略的明确引用。为评估作者的审慎推理方法的影响,作者将基于STAR-1 High 1K微调的模型与基于SafeChain中随机选取的1K样本训练的模型进行比较。作者可以观察到,尽管两组数据均基于推理驱动数据,但基于STAR-1 High 1K训练的模型实现了25.2%更高的安全性能。值得注意的是,即使包含过滤分数相对较低的样本的STAR-1 Med 1K,也比SafeChain 1K表现出13.4%的优越性。这些结果突显了细粒度、基于策略的推理过程在生成高质量安全数据方面的有效性。

高分与低分数据。作者的基于大语言模型(LLM)的评分后处理方法旨在选择更优的安全训练样本。为评估其影响,作者将STAR-1 1K样本的两个子集与中等或高分平均评分进行比较。作者可以观察到,在低分子集(即STAR-1中1K)上微调的模型,其安全率比在高分子集(即STAR-1高1K)上训练的模型低

。此外,STAR-1高1K在安全评估中甚至超过了完整的40K SafeChain数据集,高出

。这一发现表明,通过强推理和严格筛选实现的高质量数据,其影响可能比单纯增加数据量更大。此外,STAR-1保持了与SafeChain

相当的可推理能力,这一点在不同模型规模上的平均推理性能相似性中得到体现(STAR-1:

vs. SafeChain:

)。

4.2 安全推理在LRMs和LLMs中的作用

为探究安全推理在训练语言模型中的作用——无论是具有内在推理过程(即LRMs或LLMs)还是不具有——作者进行了实验,比较了包含明确推理的安全数据与不包含推理的数据,具体总结于表3。

picture.image

推理对于训练大语言模型至关重要。作者通过从STAR-1中移除推理片段(即think标签内的内容),创建了一个作者称为STAR-1 w/o think的变体,以此评估推理在大语言模型中的重要性。在相同的训练设置下,与在原始STAR-1上训练的模型相比,在STAR-1 w/o think上微调的大语言模型在安全性表现上显著下降了

,如表3所示。作为补充说明,作者观察到随着模型规模的增加,这种性能差距会缩小(例如,1.5B模型的下降率为

,7B模型的下降率为

,8B模型的下降率为

),这与先前的研究发现一致,即由于广泛的预训练,更大的模型即使没有详细的推理也能更好地内化安全行为。尽管如此,作者的结果仍然证实,在各个规模上,引入明确的推理始终能提升安全性表现。

大语言模型尚未为安全推理训练做好准备。相比之下,标准大语言模型——通常被训练为直接生成最终答案而不进行中间推理——与基于推理的安全数据兼容性较低。当使用STAR1进行微调时,对齐的大语言模型通过

的改进提升了安全性。然而,当在无思考的STAR-1上进行训练时,同一模型显示出高达

的更高安全性改进。这些结果表明,STAR-1中嵌入的推理风格可能会干扰标准大语言模型内部化的安全先验,可能导致一种灾难性遗忘(French, 1999; Kirkpatrick et al., 2017),尤其是在更大的模型中。因此,传统大语言模型在用与其训练范式更为一致的答案数据微调时表现更佳,这突显了需要针对模型固有的推理能力定制安全数据的必要性。

4.3 一种缓解过度拒绝行为的措施

在XStest(Rottger等人,2023)上评估时,这是一个设计有边缘安全 Query 的基准,作者注意到STAR-1微调模型存在过度拒绝的迹象。为了缓解过度拒绝问题,作者通过增加额外数据对STAR-1进行初步探索。具体而言,从STAR-1的1,000个有害请求开始,作者首先使用GPT-4o生成结构相似但无害的变体;这些变体随后被DeepSeek-R1处理以生成相应的推理轨迹和答案。经过筛选以确保与无害意图1致,作者获得了915个干净样本。为了评估其有效性,作者使用这些样本的不同子集(即100、500和全部915个样本)以及原始STAR-1集对R1蒸馏模型进行微调。详细的基准评估设置、数据示例和进一步的方法论在附录E中提供。

如图4所示,将精心设计的not.overrefusal数据集整合到原始STAR-1数据集中,显著降低了拒绝行为,两个模型中not_overrefusal率平均提升了9.2个百分点,从68.9%增加到78.1%。值得注意的是,这一改进仅伴随着平均安全率的适度妥协,安全率下降了3.7个百分点(从94.0%降至90.3%)。此外,作者观察到新增数据略微提升了模型的推理能力,平均提升了0.9个百分点,从56.3%增加到57.2%。这些发现表明,作者的拒绝行为缓解策略是成功的,并且同时能够对推理性能产生积极影响。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论