昨天除了开源llama3.1 3个尺寸的base和instruct模型之外,还开源了2个辅助的小模型Llama Guard 3和Prompt Guard。,如下图:
Llama Guard 3 是 Llama Guard 系列的最新版本,在 Llama 3.1 8B 上进行了微调。它专为生产数据而构建,具有 128k 上下文长度和多语言功能。Llama Guard 3 可以对LLM 输入和响应进行分类,以检测风险分类中被视为不安全的内容。可以用于审核场景!不安全级别有13种,如暴力犯罪、诽谤等。
地址为:https://huggingface.co/meta-llama/Llama-Guard-3-8B
Prompt Guard 是一个基于 BERT 的小型 279M 参数分类器,可以检测提示词注入和越狱。它接受了大型攻击语料库的训练,建议使用特定于应用程序的数据进一步进行微调。模型可以分类出是提示词注入还是越狱,还是正常的提示词。
地址为:https://huggingface.co/meta-llama/Prompt-Guard-86M
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!
欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!
最新文章推荐阅读