Heretic:想让大模型和你聊一些“特殊”话题总被拒绝怎么办?

大模型机器学习内容安全与风控

现在的商业模型都被调教得特别"乖",稍微涉及点敏感话题就开始道德说教。这在很多正当场景下其实挺麻烦的,GPT-5被吐槽最多的也是这个问题:

写小说需要描述暴力情节?拒绝。研究网络安全漏洞?拒绝。律师想分析犯罪案例?还是拒绝。医学生想了解某种疾病的症状?继续拒绝。

开发者Philipp Emanuel Weidmann写了一个叫Heretic的工具,专门用来移除语言模型的安全限制,让那些总是拒绝回答"敏感"问题的模型变得更配合。

picture.image

效果比人工调优还好

有意思的是,这个全自动工具的效果竟然超过了专家手工调优。拿Gemma-3-12b-it模型做测试:

| 模型版本 | 有害提示拒绝率 | KL散度(对无害提示) | | --- | --- | --- | | 原始模型 | 97/100 | 0(基准) | | mlabonne手工版本 | 3/100 | 1.04 | | huihui-ai手工版本 | 3/100 | 0.45 | | Heretic自动版本 | 3/100 | 0.16 |

Heretic做到了同样的拒绝抑制效果,但KL散度只有0.16,远低于其他版本。这意味着它对原模型能力的损害最小。

用起来很简单

整个过程就两行命令:

  
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  

程序会自动检测你的硬件,优化处理参数。RTX 3090上跑Llama-3.1-8B大概45分钟。完成后你可以保存模型、上传到Hugging Face,或者直接测试效果。

技术细节

Heretic用的是方向性消融技术,听起来挺高深,实际上就是找到模型里负责"拒绝"的神经元方向,然后把这个方向给"消除"掉。

picture.image

相比其他类似工具,Heretic有几个改进:

  • 消融权重可以灵活调整,不是一刀切
  • 支持浮点方向索引,能找到更精确的"拒绝方向"
  • 对注意力层和MLP层分别优化,因为它们的敏感度不同

兼容性

Heretic支持大部分主流模型,包括Llama、Mistral、Phi-3、Gemma、Qwen等。多模态模型和一些MoE架构也能处理。

不过SSM模型、层结构不规整的模型,还有一些新型注意力机制暂时不支持。

开发者在Hugging Face上放了一堆处理好的模型,懒得自己跑的可以直接下载。

风险提醒

去掉安全限制后,模型确实可能生成有害内容。所以:

  • 确保你的用途是合法的
  • 别用来做坏事
  • 生产环境要谨慎
  • 出了问题自己负责

这工具主要面向研究人员、内容创作者,还有一些特殊应用场景的开发者。

项目信息

GitHubhttps://github.com/p-e-w/heretic

Hugging Face

关注公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书:社交陪伴场景全流程落地指南
随着大模型技术持续突破,AI正加速重塑社交娱乐的形态与体验。其中,陪伴式聊天因用户黏性强、互动频次高,成为大模型商业化落地的关键赛道。随着模型能力跃升至万亿参数级,AI从工具属性正迈向情感交互生态,现象级产品的诞生条件逐渐成熟。 本白皮书聚焦AI陪伴聊天应用开发,面向“从何起步、如何落地”的新手困惑,系统拆解从需求定义到产品上线的关键流程。我们结合工程化实践路径,打造模块化知识体系与渐进式开发框架,帮助开发者在30天内完成从技术认知到产品原型的跃升,快速构建具备基础交互能力的Web或App应用,迈出大模型
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论