GoForum › 🌐 V2EX
上次发过的 AI 排障项目,这次整理成了可直接跑的 v0.1.0 MVP
bimeixishuai ·
2026-04-08 11:45 ·
0 次点赞 · 1 条回复
上个月我在 V2EX 发过一个更早期版本,当时更多是在讲思路。
这次把项目整理到了一个能直接跑的 v0.1.0 MVP,所以补发一次更新版:
debug-runbook
https://github.com/UnCooe/debug-runbook
如果你上次看过,这次值得重新看一眼的点主要有 3 个:
- 现在可以直接
pnpm demo,0 配置先跑起来 - 项目边界收紧了,不再把它写成“完整生产系统开源版”
- custom runbook 、README 、发布面都补到了一个更像
v0.1.0的状态
这个项目核心还是那个判断:
很多线上故障不是没有规律,而是排查流程本身高度套路化。
比如某个结果不对,正常排查顺序往往就是:
- 先对齐期望结果和实际结果
- 再看缓存
- 再看 DB
- 再看 trace / 调用链
- 最后判断到底是缓存陈旧、预期副作用没发生,还是状态本身异常
我后来越来越觉得,AI 排障里最值钱的不是“给模型更多工具”,而是把这套顺序和证据边界写清楚。
不然就很容易变成:
- 工具很多,但调查路径不稳定
- trace / SQL / 日志一长就开始跑偏
- 结论看着像那么回事,但 audit 不动
所以这个项目做的事情,不是再封装一堆调试工具,而是把排障经验写成可执行 Runbook ,让 Agent:
- 先选对剧本
- 再按顺序取证
- 最后按 evidence rules 下结论
现在仓库里开源的是这层可复用骨架:
- Runbook selector
- ordered executor
- evidence normalization
- decision engine
- MCP server 入口
边界也先说清楚:
- 当前是早期开源 MVP
- 不是原内部系统的完整开源镜像
- 不包含私有 DAG 、权限系统和自动修复链路
现在已经能 0 配置直接跑 demo 了:
pnpm install
pnpm demo
pnpm benchmark
pnpm check
快来试试,把你们团队祖传的排错绝招写成剧本提个 PR !
1 条回复
添加回复
你还需要 登录
后发表回复
收藏了。。这个项目运维开发能用吗