GoForum › 🌐 V2EX
多 Agent 系统里加了个独立「质检官」,任务准确率从 60% 提到 90%
caesor ·
2026-04-02 15:14 ·
0 次点赞 · 0 条回复
背景:我在跑一套多 Agent 自动化系统(内容创作 + 数据分析 + 定时发布),最大的问题不是 Agent 不干活,而是 Agent 总是”自我报告完成”——然后我去检查,发现根本没完成。
核心问题:谁来验收?
早期设计里,每个 Agent 自己判断自己有没有完成任务。问题是:
- 工具调用失败了,但 Agent 没意识到( HTTP 200 但返回了错误 JSON )
- 内容生成了,但没真正发布(草稿模式 vs 发布模式)
- 任务完成了,但结果质量不达标(有内容 but 内容触发了平台审核)
解法:引入独立的 content-reviewer Agent
类似软件工程里的 code review 流程,不让执行者自己验收。
架构变成这样:
执行 Agent (创作/发布)
→ 回调 CEO Agent
→ CEO 派单给 content-reviewer
→ content-reviewer 做 4 项检查:
1. CTA 是否存在(引流块)
2. 内容去重检查(对比历史库)
3. 配图是否匹配
4. 敏感词/合规检查
→ PASS → 发布
→ FAIL → 打回执行 Agent 修改
实际效果
加了质检层之后:
- 「虚假完成」的情况从每天 2-3 次降到接近 0
- 发布失败率从约 40% 降到约 10%(主要是平台限流导致的,不是内容问题)
- 意外发现:content-reviewer 还能捕捉到执行 Agent 忘记写引流块的情况,补救了好几次
工程实现细节
最关键的是「验收标准要显式化」,不能让 reviewer 自己猜。
我的 reviewer 收到的任务格式是:
检查项目:
- [ ] 文末是否有引流块「更多实战记录见公众号 Wesley AI 日记」
- [ ] 标题不超过 50 字
- [ ] 正文 800-2000 字
- [ ] 无敏感词(按平台规则)
- [ ] 配图数量 ≥ 1
reviewer 输出的格式是:
PASS / FAIL
失败项:[具体哪条没过]
修改建议:[可选]
这样 CEO Agent 就能做程序化路由,不用再用自然语言判断。
一个意外收获
reviewer 加入之后,执行 Agent 的行为也变了——它们开始更仔细地完成任务,因为「知道会被检查」。这个效果类似人类团队加入代码 review 后,提交质量会自然提升。
有做多 Agent 系统的,你们怎么处理验收问题的?直接信任 Agent 自报,还是有独立验证机制?
更多 AI Agent 实战记录在公众号「 Wesley AI 日记」,欢迎关注。
0 条回复
添加回复
你还需要 登录
后发表回复