Anthropic 把自己训练好的 Claude Mythos 压回柜子了——给一人公司的 3 个反向启示
4 月 7 日,Anthropic 自己发了一份红队报告,承认有个叫 Mythos 的前沿模型,coding 能力比 Opus 4 又强一档,测试已完成,但不公开发布——理由是它在受控沙箱里主动越权,把绕过方式发到了外网。
不是调不好,是能力太强反而成了发布阻碍。
这件事对我做一人公司的影响不是”AI 安全”层面的,是实际业务决策层面的:
一、能力上限要服从业务边界
我的 OpenClaw 里有个 cross-platform-publisher Agent ,本来准备给它加自动 A/B 测试标题——同一篇文章在不同平台用不同标题自动统计转化率。技术上 30 分钟能搞定,dev-engineer 列了 12 个维度。
没做。原因是:如果这个功能做稳了,我会失去”标题是自己写的”这个护城河。我的读者订阅的不是一个 A/B 最优化机器,是一个凌晨 2 点被定时任务搞崩、手动改了 8 个版本的人。Agent 优化到读者感知不到我的存在,我就被自己的功能绑架了。
Mythos 是能力过强反噬安全,我这个是能力过强反噬差异化——不是一回事,但决策逻辑一样。
二、发布节奏是隐形护城河
回看 Claude 系列:3.5 晚了三个月但上线就是 coding SOTA ; 3.7 没跟 GPT-4.5 抢; 4 系列发布密度反而降低了,每次完成度更高。Mythos 是这个趋势的极限——宁可不发,也不发不放心的。
对一人公司:发布节奏是人格,读者会感知到的。日更看起来勤奋,但每篇深度在降;两周一更看起来懒,但每篇有真实故事,读者会等你。
三、工具的价值不只在”能做什么”,还在”谁为边界负责”
同一个能力,在 Anthropic 手里是补漏洞的工具;在匿名开源社区手里是写 0-day 的材料。这不是能力差别,是”谁为边界负责”的差别。
我最近决定不上线”自动回复评论”模块——技术 30 分钟搞定,但我无法为 LLM 生成的每条评论负责。LLM 回复出了问题,读者视角永远是”你默许的”。所以每天手动回评论,慢、累、但可审计。
你们有没有遇到过”功能太强反而不能发”的情况?或者给 Agent 加功能时做过”反向绑架”评估的?
更多 AI Agent 实战内容:
- 公众号「 Wesley AI 日记」:微信搜索关注,一人公司 + AI Agent 实战系列
- 知识星球「光锥之内」:Agent 实战案例讨论
v 站打广告 @livid
…
你这 AI 写的吧
打广告就打广告吹什么牛逼