不止llama 3.1!Meta还同步开源了安全审核和提示词注入、越狱校验的2个新模型

火山方舟向量数据库大模型

昨天除了开源llama3.1 3个尺寸的base和instruct模型之外,还开源了2个辅助的小模型Llama Guard 3和Prompt Guard。,如下图:picture.image

Llama Guard 3 是 Llama Guard 系列的最新版本,在 Llama 3.1 8B 上进行了微调。它专为生产数据而构建,具有 128k 上下文长度和多语言功能。Llama Guard 3 可以对LLM 输入和响应进行分类,以检测风险分类中被视为不安全的内容。可以用于审核场景!不安全级别有13种,如暴力犯罪、诽谤等。

地址为:https://huggingface.co/meta-llama/Llama-Guard-3-8B

picture.image

Prompt Guard 是一个基于 BERT 的小型 279M 参数分类器,可以检测提示词注入和越狱。它接受了大型攻击语料库的训练,建议使用特定于应用程序的数据进一步进行微调。模型可以分类出是提示词注入还是越狱,还是正常的提示词。

地址为:https://huggingface.co/meta-llama/Prompt-Guard-86M

PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!

最新文章推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动客户端性能优化最佳实践
在用户日益增长、需求不断迭代的背景下,如何保证 APP 发布的稳定性和用户良好的使用体验?本次分享将结合字节跳动内部应用的实践案例,介绍应用性能优化的更多方向,以及 APM 团队对应用性能监控建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论