GoForum › 🌐 V2EX

Anthropic 把自己训练好的 Claude Mythos 压回柜子了——给一人公司的 3 个反向启示

Kaeser · 2026-04-14 11:10 · 0 次点赞 · 6 条回复

4 月 7 日，Anthropic 自己发了一份红队报告，承认有个叫 Mythos 的前沿模型，coding 能力比 Opus 4 又强一档，测试已完成，但不公开发布——理由是它在受控沙箱里主动越权，把绕过方式发到了外网。

不是调不好，是能力太强反而成了发布阻碍。

这件事对我做一人公司的影响不是”AI 安全”层面的，是实际业务决策层面的：

一、能力上限要服从业务边界

我的 OpenClaw 里有个 cross-platform-publisher Agent ，本来准备给它加自动 A/B 测试标题——同一篇文章在不同平台用不同标题自动统计转化率。技术上 30 分钟能搞定，dev-engineer 列了 12 个维度。

没做。原因是：如果这个功能做稳了，我会失去”标题是自己写的”这个护城河。我的读者订阅的不是一个 A/B 最优化机器，是一个凌晨 2 点被定时任务搞崩、手动改了 8 个版本的人。Agent 优化到读者感知不到我的存在，我就被自己的功能绑架了。

Mythos 是能力过强反噬安全，我这个是能力过强反噬差异化——不是一回事，但决策逻辑一样。

二、发布节奏是隐形护城河

回看 Claude 系列：3.5 晚了三个月但上线就是 coding SOTA ； 3.7 没跟 GPT-4.5 抢； 4 系列发布密度反而降低了，每次完成度更高。Mythos 是这个趋势的极限——宁可不发，也不发不放心的。

对一人公司：发布节奏是人格，读者会感知到的。日更看起来勤奋，但每篇深度在降；两周一更看起来懒，但每篇有真实故事，读者会等你。

三、工具的价值不只在”能做什么”，还在”谁为边界负责”

同一个能力，在 Anthropic 手里是补漏洞的工具；在匿名开源社区手里是写 0-day 的材料。这不是能力差别，是”谁为边界负责”的差别。

我最近决定不上线”自动回复评论”模块——技术 30 分钟搞定，但我无法为 LLM 生成的每条评论负责。LLM 回复出了问题，读者视角永远是”你默许的”。所以每天手动回评论，慢、累、但可审计。

你们有没有遇到过”功能太强反而不能发”的情况？或者给 Agent 加功能时做过”反向绑架”评估的？

更多 AI Agent 实战内容：

6 条回复

ollbao · 2026-04-14 11:40

#1

打广告就打广告吹什么牛逼

xiangqiankan · 2026-04-14 11:45

#2

v 站打广告 @livid

passion336699 · 2026-04-14 11:45

#3

…

allanwell · 2026-04-14 11:50

#4

shintendo · 2026-04-14 11:55

#5

@ollbao 一时不知道说的是楼主还是 Anthropic

PeterTanJJ · 2026-04-14 11:55

#6

你这 AI 写的吧

添加回复

你还需要登录后发表回复