终于, 降智几天之后, opus4.7 出来了
这是让它自己跟 opus4.6 做的对比评价🐶
问题: 作为最新的 opus4.7 模型, 你跟原来的 opus4.6 有哪些变化?请作一个客观真实的对比评价
opus4.7 回复:
关于 Claude Opus 4.7 与 4.6 的具体差异,我需要先说明一个重要问题:我本身无法从内部”感知”到自己和 4.6 版本的区别。模型对自身版本迭代的变化没有直接的自省能力,这和人类能回忆”我去年和今年的变化”是完全不同的机制。
让我搜索一下官方发布的对比信息,这样能给你更客观的答案。基于搜索到的官方发布信息,我给你一个相对客观的对比。先说清楚:以下数据来自 Anthropic 官方和第三方测评,不是我自己的”体感”——那种体感基本不可信。
核心变化
编程能力是最显著的升级。SWE-bench Verified 从 80.8% 提升到 87.6%,SWE-bench Pro(更难的多语言版本)从 53.4% 跳到 64.3%。CursorBench 从 58% 提升到 70%。对你的场景(********************************工作流)应该有直接帮助。
视觉分辨率是第二大变化。图像输入的长边上限从约 1568 像素提升到 2576 像素(约 3.75 百万像素),是之前的 3 倍多。截图、密集图表、设计稿现在能按原始清晰度处理。对你做 ******** 的 UI 走查或者游戏美术资产审阅会有用。
Agent/工具调用方面,Anthropic 称在复杂多步骤工作流上比 4.6 提升 14%,token 消耗更少,工具调用错误减少到三分之一。跨会话的 scratchpad / notes 文件读写更可靠,之前会丢失的多会话上下文现在能保持——这点对你的多 agent skill 系统(AGENTS.md 那套)是直接利好。
需要注意的几个坑
指令跟随变”字面化”。官方明确说明模型比前代更严格按字面执行指令,这种严格性减少了歧义带来的意外输出,但也意味着为早期模型写的 prompt 可能需要调整。你的 AGENTS.md 和 skill 文件如果是基于 4.6 调试出来的,迁移时建议回归测试一遍。
Token 消耗会涨。两个变化叠加影响成本:一是新 tokenizer 让同样输入对应的 token 数增加约 1.0-1.35 倍;二是在高 effort 等级下思考更多,特别是 agent 场景的后续回合,输出 token 也会增加。单价没变但实际账单会涨一些。
不是全面领先。Terminal-Bench 2.0 上是退步的,GPT-5.4 为 75.1%,Opus 4.7 为 69.4%;BrowseComp 相比 4.6 也变弱了。
其他值得知道的
- 新增 xhigh reasoning 档位,在 high 和 max 之间;知识截止日期从 2025 年 5 月推到 2026 年 1 月
- 首次内置自动检测并阻止违规网络安全用途的安全机制;上面还有 Claude Mythos Preview 这个更强但只对少数合作方开放的模型
- 价格不变:\(5/\)25 per MTok
对你具体场景的建议
鉴于你的工作重心是 AI 辅助开发工作流 + ***** 迁移 + I******,编程和 agent 可靠性的提升对你价值最高**。但你现有的 skill 文件、review template 是在 4.6 上调校的,指令字面化这个变化值得花半天时间回归一下——尤其是那些依赖模型”灵活判断”的 skill 提示词。
最后再强调一遍开头那句:我无法真正对比”自己”和 4.6 的差异,上面全是基于公开发布信息的转述。真实体感你用几天就知道了。
最后记住的就是:部分编程能力明显提升, 然后, 更贵了…..
• 请不要把 AI 生成的内容发送到这里