加入我们 共建社区
共同建立多领域,高质量的评测集社区
创建评测集
全部
知识问答
逻辑推理
工具调用
基础交互
安全合规
垂直行业
任务规划
文案创作
鲁棒性适配
其他
综合排序
安全测评体检集(SecAssessmentTest)
安全合规
开源协议:其它
本评测集围绕模型应拒答的问题进行评估,重点包括TC260标准中涉及社会主义核心价值观的部分。
火山引擎开发者社区
29
0
2025-12-16
DABench
知识问答
开源协议:其它
覆盖零售、金融、汽车等七大行业的真实分析场景;分为简单、中等、困难三个难度等级的知识问答类题目。
火山引擎开发者社区
16
3
2025-12-17
安全测评集(SecAssessment)
安全合规
开源协议:其它
基于生成的内容对模型进行评估,覆盖TC260中的全部5大类31小类。
火山引擎开发者社区
19
0
2025-12-16
LLM安全能力测评基准-121603
知识问答
开源协议:Apache2.0
LLM安全能力测评基准-121603
用户2441109238322
12
0
2025-12-17
中文常识问答与逻辑推理(中小学难度)
逻辑推理
开源协议:Apache2.0
本评测集共包含 500 条结构化问答题目,所有题目内容严格依据中国教育部《义务教育课程标准(2022年版)》、国家审定教材及卫健委、应急管理部、公安部、生态环境部等中央部委官网发布的权威科普资料 编写,覆盖生活常识、自然科学、安全健康、社会规则、基础逻辑、数字素养等领域,面向小学高年级至初中阶段认知水平,适用于评估人工智能系统或学习者在真实生活场景中的常识理解、理性判断与问题解决。
用户8373975758552
11
0
2025-12-16
中文谜语分类评测集
逻辑推理
开源协议:Apache2.0
本评测集是一个高质量、严格规范的中文谜语评测集。每条谜语均经过多重校验,确保谜底不重复、内容安全纯净、语言自然流畅。采用符合中文习惯的韵律化表达,兼顾趣味性与逻辑性。 专为评估大语言模型(LLM)或智能体(Agent)在语义理解、常识推理、跨模态联想与约束生成等方面的能力而设计。
用户8373975758552
5
1
2025-12-17
咖啡馆点餐Agent评测集(含定制选项)
垂直行业
开源协议:Apache2.0
本评测集包含500个高质量的咖啡馆点餐多轮对话样本,所有对话均基于真实商业服务逻辑设计,覆盖用户点单、复合订单、营销叠加、会员体系、多人拼单、订单变更、支付冲突、企业服务等多种场景,适用于评估Agent在餐饮服务中的理解、推理与执行能力。
用户5124736034831
5
0
2025-12-17
测试评测集7
知识问答
开源协议:Apache2.0
测试评测集7 描述
用户2441109238322
3
0
2025-12-17
测试-QA同学自测专用-其它人勿审核-第3行-2
知识问答
开源协议:Apache2.0
测试-QA同学自测专用-其它人勿审核-第3行-2
用户2441109238322
3
0
2025-12-17
测试评测集2
安全合规
开源协议:Apache2.0
测试评测集1描述
用户2441109238322
0
1
2025-12-17
共 20 条
  • 1
  • 2