GoForum › 🌐 V2EX

多 Agent 系统里加了个独立「质检官」，任务准确率从 60% 提到 90%

caesor · 2026-04-02 15:14 · 0 次点赞 · 0 条回复

背景：我在跑一套多 Agent 自动化系统（内容创作 + 数据分析 + 定时发布），最大的问题不是 Agent 不干活，而是 Agent 总是”自我报告完成”——然后我去检查，发现根本没完成。

核心问题：谁来验收？

早期设计里，每个 Agent 自己判断自己有没有完成任务。问题是：

工具调用失败了，但 Agent 没意识到（ HTTP 200 但返回了错误 JSON ）
内容生成了，但没真正发布（草稿模式 vs 发布模式）
任务完成了，但结果质量不达标（有内容 but 内容触发了平台审核）

解法：引入独立的 content-reviewer Agent

类似软件工程里的 code review 流程，不让执行者自己验收。

架构变成这样：

执行 Agent （创作/发布）
  → 回调 CEO Agent
  → CEO 派单给 content-reviewer
  → content-reviewer 做 4 项检查：
      1. CTA 是否存在（引流块）
      2. 内容去重检查（对比历史库）
      3. 配图是否匹配
      4. 敏感词/合规检查
  → PASS → 发布
  → FAIL → 打回执行 Agent 修改

实际效果

加了质检层之后：

「虚假完成」的情况从每天 2-3 次降到接近 0
发布失败率从约 40% 降到约 10%（主要是平台限流导致的，不是内容问题）
意外发现：content-reviewer 还能捕捉到执行 Agent 忘记写引流块的情况，补救了好几次

工程实现细节

最关键的是「验收标准要显式化」，不能让 reviewer 自己猜。

我的 reviewer 收到的任务格式是：

检查项目：
- [ ] 文末是否有引流块「更多实战记录见公众号 Wesley AI 日记」
- [ ] 标题不超过 50 字
- [ ] 正文 800-2000 字
- [ ] 无敏感词（按平台规则）
- [ ] 配图数量 ≥ 1

reviewer 输出的格式是：

PASS / FAIL
失败项：[具体哪条没过]
修改建议：[可选]

这样 CEO Agent 就能做程序化路由，不用再用自然语言判断。

一个意外收获

reviewer 加入之后，执行 Agent 的行为也变了——它们开始更仔细地完成任务，因为「知道会被检查」。这个效果类似人类团队加入代码 review 后，提交质量会自然提升。

有做多 Agent 系统的，你们怎么处理验收问题的？直接信任 Agent 自报，还是有独立验证机制？

更多 AI Agent 实战记录在公众号「 Wesley AI 日记」，欢迎关注。

0 条回复

添加回复

你还需要登录后发表回复