评估与监控

系统性评估性能、监控进展、检测异常

🎯 核心概念

来源：Agentic Design Patterns - Evaluation and Monitoring

什么是评估与监控？

定义

评估与监控使智能体能够系统性地评估自身性能、监控目标进展并检测运行异常，确保性能在运行环境中符合预期。

为什么传统测试不够？

传统软件测试	智能体评估
可预测的通过/失败	概率性运行
静态测试用例	需要自适应测试
关注最终输出	关注轨迹和推理过程

📋 七大应用场景

场景	说明
实时性能跟踪	监控准确性、延迟、资源消耗
A/B测试	比较不同版本或策略
合规性审计	跟踪对道德准则、监管要求的遵守
AI合约	将任务目标、规则编码为合约
漂移检测	检测因数据/环境变化导致的性能下降
异常行为检测	识别错误或非预期行为
学习进展评估	跟踪学习曲线和技能改进

📈 智能体轨迹评估

什么是轨迹？

轨迹是智能体达到解决方案所采取的步骤序列。

轨迹比较方法

方法	说明	适用场景
精确匹配	完美匹配理想序列	高风险
顺序匹配	正确操作按顺序	中等灵活
任意顺序匹配	正确操作任意顺序	高灵活
精确度/召回率	测量操作质量和完整性	评估质量

📝 承包商模型

从简单提示到正式合约

传统智能体	承包商模型
简短指令	详细正式化合约
概率性、不可靠	确定性、可问责
模糊性导致失败	明确定义防止失败

正式化合约示例

传统："分析上季度销售额"

合约：

"20页PDF报告，分析2025Q1欧洲市场销售：
- 5个数据可视化
- 与2024Q1比较
- 风险评估
- 预期成本和时间"

动态协商

合约支持智能体协商和澄清模糊性，避免执行失败。

📊 核心评估指标

基础指标

指标	说明
准确性	响应正确性
延迟	响应时间
资源消耗	Token使用、计算资源

高级指标

指标	说明
轨迹质量	步骤序列的合理性
协作成功	多智能体团队效能
有用性	主观质量（LLM-as-a-Judge）

🛠️ 评估方法

方法	说明
LLM-as-a-Judge	使用LLM进行定性评估
单元测试	测试特定功能
集成测试	综合评估集测试
Web UI	交互式测试
pytest	CI/CD集成

💡 核心要点

使用场景

部署到实时生产环境
需要比较不同版本
受监管或高风险领域
性能可能因数据变化而下降
评估复杂智能体行为

一句话总结

评估与监控通过定义指标、建立反馈循环和实施报告系统，将智能体从不可预测工具转变为可问责、可信赖的系统。

🔗 相关阅读

反思模式 - 自我评估和改进
异常处理 - 检测和处理异常

参考文献：
ADK Evaluate
Survey on Evaluation of LLM-based Agents

评估与监控 ​

🎯 核心概念 ​

什么是评估与监控？ ​

为什么传统测试不够？ ​

📋 七大应用场景 ​

📈 智能体轨迹评估 ​

什么是轨迹？ ​

轨迹比较方法 ​

📝 承包商模型 ​

从简单提示到正式合约 ​

正式化合约示例 ​

动态协商 ​

📊 核心评估指标 ​

基础指标 ​

高级指标 ​

🛠️ 评估方法 ​

💡 核心要点 ​

使用场景 ​

一句话总结 ​

🔗 相关阅读 ​

评估与监控

🎯 核心概念

什么是评估与监控？

为什么传统测试不够？

📋 七大应用场景

📈 智能体轨迹评估

什么是轨迹？

轨迹比较方法

📝 承包商模型

从简单提示到正式合约

正式化合约示例

动态协商

📊 核心评估指标

基础指标

高级指标

🛠️ 评估方法

💡 核心要点

使用场景

一句话总结

🔗 相关阅读