监控文档正在开发中。以下概述了核心概念。
概述
Shannon 提供全面的监控和可观测性功能,以跟踪生产环境中的任务执行、系统性能和资源使用。监控能力
任务监控
跟踪单个任务执行:- 执行状态和进度
- 资源消耗
- 错误率和类型
- 延迟指标
- 成本跟踪
系统监控
监控 Shannon 基础设施:- 服务健康状态
- API 端点延迟
- 队列深度
- 智能体可用性
- LLM 提供商状态
指标
任务指标
| 指标 | 描述 | 单位 |
|---|---|---|
task.latency | 端到端任务完成时间 | 毫秒 |
task.cost | 每个任务的总成本 | 美元 |
task.tokens.input | 消耗的输入令牌 | 数量 |
task.tokens.output | 生成的输出令牌 | 数量 |
task.iterations | 智能体迭代次数 | 数量 |
task.tools.invocations | 工具使用次数 | 数量 |
系统指标
| 指标 | 描述 | 单位 |
|---|---|---|
api.latency | API 响应时间 | 毫秒 |
api.requests | 请求速率 | 请求/秒 |
api.errors | 错误率 | 错误/秒 |
queue.depth | 等待的任务 | 数量 |
agents.active | 活动智能体数量 | 数量 |
健康检查
API 健康
组件健康
日志
日志级别
Shannon 使用结构化日志记录,级别包括:DEBUG- 详细诊断信息INFO- 一般操作消息WARN- 警告条件ERROR- 错误条件FATAL- 严重故障
日志格式
仪表板
任务仪表板
实时监控任务执行:- 活动任务
- 完成率
- 平均延迟
- 错误率
- 每小时成本
系统仪表板
跟踪系统健康:- 服务状态
- 资源利用率
- 队列长度
- 提供商可用性
告警
告警类型
配置告警以监控:- 任务失败
- 预算超支
- 高延迟
- 服务降级
- 速率限制
告警配置
Prometheus 集成
将指标导出到 Prometheus(本地开发示例):可用指标
Grafana 仪表板
预构建的 Grafana 仪表板用于:- 任务分析
- 成本跟踪
- 性能监控
- 错误分析
OpenTelemetry
Shannon 支持 OpenTelemetry 进行分布式跟踪:最佳实践
- 设置告警以监控关键指标
- 监控成本以防止预算超支
- 跟踪错误模式以识别问题
- 使用分布式跟踪进行调试
- 归档日志以满足合规性要求
- 为您的用例创建自定义仪表板
- 实施 SLO以确保可靠性