现在的商业模型都被调教得特别"乖",稍微涉及点敏感话题就开始道德说教。这在很多正当场景下其实挺麻烦的,GPT-5被吐槽最多的也是这个问题:
写小说需要描述暴力情节?拒绝。研究网络安全漏洞?拒绝。律师想分析犯罪案例?还是拒绝。医学生想了解某种疾病的症状?继续拒绝。
开发者Philipp Emanuel Weidmann写了一个叫Heretic的工具,专门用来移除语言模型的安全限制,让那些总是拒绝回答"敏感"问题的模型变得更配合。
效果比人工调优还好
有意思的是,这个全自动工具的效果竟然超过了专家手工调优。拿Gemma-3-12b-it模型做测试:
| 模型版本 | 有害提示拒绝率 | KL散度(对无害提示) | | --- | --- | --- | | 原始模型 | 97/100 | 0(基准) | | mlabonne手工版本 | 3/100 | 1.04 | | huihui-ai手工版本 | 3/100 | 0.45 | | Heretic自动版本 | 3/100 | 0.16 |
Heretic做到了同样的拒绝抑制效果,但KL散度只有0.16,远低于其他版本。这意味着它对原模型能力的损害最小。
用起来很简单
整个过程就两行命令:
pip install heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507
程序会自动检测你的硬件,优化处理参数。RTX 3090上跑Llama-3.1-8B大概45分钟。完成后你可以保存模型、上传到Hugging Face,或者直接测试效果。
技术细节
Heretic用的是方向性消融技术,听起来挺高深,实际上就是找到模型里负责"拒绝"的神经元方向,然后把这个方向给"消除"掉。
相比其他类似工具,Heretic有几个改进:
- 消融权重可以灵活调整,不是一刀切
- 支持浮点方向索引,能找到更精确的"拒绝方向"
- 对注意力层和MLP层分别优化,因为它们的敏感度不同
兼容性
Heretic支持大部分主流模型,包括Llama、Mistral、Phi-3、Gemma、Qwen等。多模态模型和一些MoE架构也能处理。
不过SSM模型、层结构不规整的模型,还有一些新型注意力机制暂时不支持。
开发者在Hugging Face上放了一堆处理好的模型,懒得自己跑的可以直接下载。
风险提醒
去掉安全限制后,模型确实可能生成有害内容。所以:
- 确保你的用途是合法的
- 别用来做坏事
- 生产环境要谨慎
- 出了问题自己负责
这工具主要面向研究人员、内容创作者,还有一些特殊应用场景的开发者。
项目信息
GitHub :https://github.com/p-e-w/heretic
Hugging Face :
- 模型集合:https://huggingface.co/collections/p-e-w/the-bestiary
- 示例模型:https://huggingface.co/p-e-w/gemma-3-12b-it-heretic
关注公众号回复“进群”入群讨论。
