不止llama 3.1！Meta还同步开源了安全审核和提示词注入、越狱校验的2个新模型 - 文章 - 开发者社区

昨天除了开源llama3.1 3个尺寸的base和instruct模型之外，还开源了2个辅助的小模型Llama Guard 3和Prompt Guard。，如下图： picture.image

Llama Guard 3 是 Llama Guard 系列的最新版本，在 Llama 3.1 8B 上进行了微调。它专为生产数据而构建，具有 128k 上下文长度和多语言功能。Llama Guard 3 可以对LLM 输入和响应进行分类，以检测风险分类中被视为不安全的内容。可以用于审核场景！不安全级别有13种，如暴力犯罪、诽谤等。

地址为：https://huggingface.co/meta-llama/Llama-Guard-3-8B

picture.image

Prompt Guard 是一个基于 BERT 的小型 279M 参数分类器，可以检测提示词注入和越狱。它接受了大型攻击语料库的训练，建议使用特定于应用程序的数据进一步进行微调。模型可以分类出是提示词注入还是越狱，还是正常的提示词。

地址为：https://huggingface.co/meta-llama/Prompt-Guard-86M

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注 是我坚持的最大动力！

欢迎多多关注公众号「NLP前沿」，加入交流群，交个朋友吧，一起学习，一起进步！