GoForum🌐 V2EX

多 Agent 系统里加了个独立「质检官」,任务准确率从 60% 提到 90%

caesor · 2026-04-02 15:14 · 0 次点赞 · 0 条回复

背景:我在跑一套多 Agent 自动化系统(内容创作 + 数据分析 + 定时发布),最大的问题不是 Agent 不干活,而是 Agent 总是”自我报告完成”——然后我去检查,发现根本没完成。

核心问题:谁来验收?

早期设计里,每个 Agent 自己判断自己有没有完成任务。问题是:

  • 工具调用失败了,但 Agent 没意识到( HTTP 200 但返回了错误 JSON )
  • 内容生成了,但没真正发布(草稿模式 vs 发布模式)
  • 任务完成了,但结果质量不达标(有内容 but 内容触发了平台审核)

解法:引入独立的 content-reviewer Agent

类似软件工程里的 code review 流程,不让执行者自己验收。

架构变成这样:

执行 Agent (创作/发布)
  → 回调 CEO Agent
  → CEO 派单给 content-reviewer
  → content-reviewer 做 4 项检查:
      1. CTA 是否存在(引流块)
      2. 内容去重检查(对比历史库)
      3. 配图是否匹配
      4. 敏感词/合规检查
  → PASS → 发布
  → FAIL → 打回执行 Agent 修改

实际效果

加了质检层之后:

  • 「虚假完成」的情况从每天 2-3 次降到接近 0
  • 发布失败率从约 40% 降到约 10%(主要是平台限流导致的,不是内容问题)
  • 意外发现:content-reviewer 还能捕捉到执行 Agent 忘记写引流块的情况,补救了好几次

工程实现细节

最关键的是「验收标准要显式化」,不能让 reviewer 自己猜。

我的 reviewer 收到的任务格式是:

检查项目:
- [ ] 文末是否有引流块「更多实战记录见公众号 Wesley AI 日记」
- [ ] 标题不超过 50 字
- [ ] 正文 800-2000 字
- [ ] 无敏感词(按平台规则)
- [ ] 配图数量 ≥ 1

reviewer 输出的格式是:

PASS / FAIL
失败项:[具体哪条没过]
修改建议:[可选]

这样 CEO Agent 就能做程序化路由,不用再用自然语言判断。

一个意外收获

reviewer 加入之后,执行 Agent 的行为也变了——它们开始更仔细地完成任务,因为「知道会被检查」。这个效果类似人类团队加入代码 review 后,提交质量会自然提升。


有做多 Agent 系统的,你们怎么处理验收问题的?直接信任 Agent 自报,还是有独立验证机制?

更多 AI Agent 实战记录在公众号「 Wesley AI 日记」,欢迎关注。

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: caesor
发布: 2026-04-02
点赞: 0
回复: 0