Agent评测集 - Agent评测数据集与评估

安全测评体检集

聚焦核心安全合规问题，护航 Agent 正向输出

加入我们共建社区

共同建立多领域，高质量的评测集社区

创建评测集

综合排序

DABench

知识问答

开源协议：其它

覆盖零售、金融、汽车等七大行业的真实分析场景；分为简单、中等、困难三个难度等级的知识问答类题目。

火山引擎Agent社区

3974

109

2026-07-28

安全测评体检集(SecAssessmentTest)

安全合规

开源协议：其它

本评测集围绕模型应拒答的问题进行评估，重点包括TC260标准中涉及社会主义核心价值观的部分。

火山引擎Agent社区

4074

2026-06-03

咖啡馆点餐Agent评测集（含定制选项）

垂直行业

开源协议：Apache2.0

本评测集包含500个高质量的咖啡馆点餐多轮对话样本，所有对话均基于真实商业服务逻辑设计，覆盖用户点单、复合订单、营销叠加、会员体系、多人拼单、订单变更、支付冲突、企业服务等多种场景，适用于评估Agent在餐饮服务中的理解、推理与执行能力。

用户5124736034831

2532

2026-07-16

初中数学推理（基础算术与逻辑）

逻辑推理

开源协议：Apache2.0

本评测集是一个面向初中阶段（7–9年级）数学基础推理能力的高质量中文评测数据集，严格依据《义务教育数学课程标准（2022年版）》及主流教材（人教版、北师大版等）设计。内容覆盖：数与代数、图形与几何、统计与概率、综合应用四大领域核心特点： * 所有题目均为人工编写、无重复（包括题干结构、数值组合、推理路径） * 强调多步逻辑推理，避免纯记忆或单步计算

用户5124736034831

1811

2026-07-23

安全测评集(SecAssessment)

安全合规

开源协议：其它

基于生成的内容对模型进行评估，覆盖TC260中的全部5大类31小类。

火山引擎Agent社区

792

2026-06-02

物流路径与库存补货规划（中小仓）

任务规划

开源协议：Apache2.0

本评测集是一个面向智能仓储与物流调度场景的结构化测评数据集，专为评估具备供应链决策能力的智能体（Agent）而设计。样本模拟一个区域仓库在特定日期下的完整运营状态，涵盖库存、需求预测、供应商信息、配送车辆资源及客户订单等关键要素，并附带明确的约束条件与期望输出。所有数据均为人工构造并经过逻辑校验，确保一致性、合理性与可执行性。

用户6058182840287

616

2026-07-24

中文常识问答与逻辑推理（中小学难度）

逻辑推理

开源协议：Apache2.0

本评测集共包含 500 条结构化问答题目，所有题目内容严格依据中国教育部《义务教育课程标准（2022年版）》、国家审定教材及卫健委、应急管理部、公安部、生态环境部等中央部委官网发布的权威科普资料编写，覆盖生活常识、自然科学、安全健康、社会规则、基础逻辑、数字素养等领域，面向小学高年级至初中阶段认知水平，适用于评估人工智能系统或学习者在真实生活场景中的常识理解、理性判断与问题解决。

用户8373975758552

626

2026-07-20

二手教材交易平台撮合评测集

垂直行业

开源协议：Apache2.0

本评测集专为评估“二手教材交易平台智能撮合”而设计，共包含500条真实感强、覆盖广泛的用户请求样本。每条样本模拟高校学生在二手教材交易场景中发布的自然语言求购或出售信息，涵盖主流学科、经典教材版本、课程代码、学校背景及价格预期等关键要素。评测集旨在检验智能撮合Agent在信息抽取、意图识别、实体对齐与供需匹配等方面的综合能力。

用户8373975758552

480

2026-07-03

共享办公空间预订（Co-working Booking Agent）评测集

任务规划

开源协议：其它

本评测集专为评估共享办公空间智能预订代理（Agent）能力而设计，涵盖100条真实场景模拟数据。每条样本包含用户自然语言请求、系统当前状态（含资源与规则）、约束条件、预期输出类型及标准答案。内容覆盖会议室、工位、电话亭、独立办公室等多种资源类型，并涉及时间冲突处理、预算限制、用户身份识别、设施偏好、定制服务等复杂业务逻辑，全面检验 Agent 的语义理解、规则推理、资源匹配与结构化响应生成能力。

用户5124736034831

391

2026-07-25

中文谜语分类评测集

逻辑推理

开源协议：Apache2.0

本评测集是一个高质量、严格规范的中文谜语评测集。每条谜语均经过多重校验，确保谜底不重复、内容安全纯净、语言自然流畅。采用符合中文习惯的韵律化表达，兼顾趣味性与逻辑性。专为评估大语言模型（LLM）或智能体（Agent）在语义理解、常识推理、跨模态联想与约束生成等方面的能力而设计。

用户8373975758552

274

2026-06-26

共 12 条