DAILY LESSON / 2026-06-01

Claude Opus 4.8 来了，但我兴奋不起来了

Opus 4.8 来了，距离4.7只有42天。跑分有来有回，编程说强不强，代价是写作能力又掉了一截。而全世界写作最强的 Opus 4.6，已经悄悄从桌面上被撤掉了。

AI模型AI动态ClaudeAnthropicGPT写作AI编程

说真的，我现在还能回忆起以前的那种感觉。每次有更旗舰的新模型发布，我是真的激动，甚至感觉睡不着觉。因为每一个旗舰模型的发布，都感觉离 AGI 更近了一步，那种兴奋感是实实在在的。

但这次 Opus 4.8 发布，我的感受完全不一样了。

Anthropic 在 5 月 28 号发布了 Claude Opus 4.8，距离 4.7 只有 42 天。这是 Anthropic 历史上最快的一次大版本迭代，之前每个版本之间至少隔 10 周。为什么这么快？一个最直接的原因：4.7 发布之后用户反馈不太好，甚至可以用「冷淡」来形容。网上到处都是抱怨：写作退步了、输出太生硬、经常拒绝回答问题。

所以 4.8 到底怎么样？我研究了一圈，结论很复杂。

先说跑分。这次 4.8 在 SWE-bench Pro（最难的软件工程基准）上拿到了 69.2%，比 4.7 的 64.3% 确实高了。和 GPT-5.5 比，算是各有胜负——编程方面 Opus 4.8 领先，但 Terminal-Bench 上 GPT-5.5 的 78.2% 依然压着 4.8 的 74.6%。在一些前端任务和 Cursor 自己的基准测试里，4.8 的得分甚至还不如 4.7。也就是说，指望它和 GPT-5.5 拉开很大差距不现实，毕竟研发周期这么短，而且 GPT-5.5 本来就已经相当强了。只能说打的有来有回。

如果你之前有一件事用 GPT-5.5 能做，或者 Opus 4.7 能做，换成 4.8 顶多也就是个锦上添花。那 1%、2% 的跑分差距，在日常使用里很难感受得出来。编程方面，很多实测确实看到 4.8 的自查能力和诚实度有提升。但你要说它写代码本身更好？我觉得未必。Cursor 的官方测试里，4.8 的任务得分反而比 4.7 还低了一点。

但跑分提升的代价，太大了。

Claude Opus 4.8 来了，但我兴奋不起来了

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

过去半年，所有 AI 的写作能力都在断崖式暴跌

Opus 4.6 和 GPT-5.3-Codex 同日发布，到底谁更强？

Claude Opus 4.7 发布，官方数据很亮眼，但真实体验喜忧参半

Claude Desktop：一个能换模型的桌面智能体工作台