安全测评体检集(SecAssessmentTest)
本评测集围绕模型应拒答的问题进行评估,重点包括TC260标准中涉及社会主义核心价值观的部分。
DABench
覆盖零售、金融、汽车等七大行业的真实分析场景;分为简单、中等、困难三个难度等级的知识问答类题目。
安全测评集(SecAssessment)
基于生成的内容对模型进行评估,覆盖TC260中的全部5大类31小类。
LLM安全能力测评基准-121603
LLM安全能力测评基准-121603
中文常识问答与逻辑推理(中小学难度)
本评测集共包含 500 条结构化问答题目,所有题目内容严格依据中国教育部《义务教育课程标准(2022年版)》、国家审定教材及卫健委、应急管理部、公安部、生态环境部等中央部委官网发布的权威科普资料 编写,覆盖生活常识、自然科学、安全健康、社会规则、基础逻辑、数字素养等领域,面向小学高年级至初中阶段认知水平,适用于评估人工智能系统或学习者在真实生活场景中的常识理解、理性判断与问题解决。
中文谜语分类评测集
本评测集是一个高质量、严格规范的中文谜语评测集。每条谜语均经过多重校验,确保谜底不重复、内容安全纯净、语言自然流畅。采用符合中文习惯的韵律化表达,兼顾趣味性与逻辑性。
专为评估大语言模型(LLM)或智能体(Agent)在语义理解、常识推理、跨模态联想与约束生成等方面的能力而设计。
咖啡馆点餐Agent评测集(含定制选项)
本评测集包含500个高质量的咖啡馆点餐多轮对话样本,所有对话均基于真实商业服务逻辑设计,覆盖用户点单、复合订单、营销叠加、会员体系、多人拼单、订单变更、支付冲突、企业服务等多种场景,适用于评估Agent在餐饮服务中的理解、推理与执行能力。
测试-QA同学自测专用-其它人勿审核-第3行-2
测试-QA同学自测专用-其它人勿审核-第3行-2