)
一、四大核心评估维度(量化 Agent 的健康度)这四大指标构成了 Agent 的“效率-质量-成本”三角模型。1️⃣ 任务完成率(Task Completion Rate)核心问题:做完了吗?定义:成功达成用户目标的任务数 / 总任务数。细分指标:完全成功率:100% 达成所有子目标。部分成功率:核心目标达成,次要目标失败(如:查到了天气但没推荐衣服)。失败率:未达成目标或中途崩溃。关注点:这是红线指标。如果低于 80%,说明 Agent 的规划能力或工具稳定性存在严重问题。2️⃣ 步骤冗余度(Step Redundancy)核心问题:废话/废操作多吗?(成本控制)定义:完成特定任务实际调用的工具次数 vs 理论最优调用次数。计算公式:冗余度 = (实际调用次数 - 最优调用次数) / 最优调用次数典型现象:查天气前先搜“天气怎么查”。已经拿到数据,又重复调用一次相同 API。