Claude Opus 4.8 来了,但我兴奋不起来了
Opus 4.8 来了,距离4.7只有42天。跑分有来有回,编程说强不强,代价是写作能力又掉了一截。而全世界写作最强的 Opus 4.6,已经悄悄从桌面上被撤掉了。
说真的,我现在还能回忆起以前的那种感觉。每次有更旗舰的新模型发布,我是真的激动,甚至感觉睡不着觉。因为每一个旗舰模型的发布,都感觉离 AGI 更近了一步,那种兴奋感是实实在在的。
但这次 Opus 4.8 发布,我的感受完全不一样了。
Anthropic 在 5 月 28 号发布了 Claude Opus 4.8,距离 4.7 只有 42 天。这是 Anthropic 历史上最快的一次大版本迭代,之前每个版本之间至少隔 10 周。为什么这么快?一个最直接的原因:4.7 发布之后用户反馈不太好,甚至可以用「冷淡」来形容。网上到处都是抱怨:写作退步了、输出太生硬、经常拒绝回答问题。
所以 4.8 到底怎么样?我研究了一圈,结论很复杂。
先说跑分。这次 4.8 在 SWE-bench Pro(最难的软件工程基准)上拿到了 69.2%,比 4.7 的 64.3% 确实高了。和 GPT-5.5 比,算是各有胜负——编程方面 Opus 4.8 领先,但 Terminal-Bench 上 GPT-5.5 的 78.2% 依然压着 4.8 的 74.6%。在一些前端任务和 Cursor 自己的基准测试里,4.8 的得分甚至还不如 4.7。也就是说,指望它和 GPT-5.5 拉开很大差距不现实,毕竟研发周期这么短,而且 GPT-5.5 本来就已经相当强了。只能说打的有来有回。
如果你之前有一件事用 GPT-5.5 能做,或者 Opus 4.7 能做,换成 4.8 顶多也就是个锦上添花。那 1%、2% 的跑分差距,在日常使用里很难感受得出来。编程方面,很多实测确实看到 4.8 的自查能力和诚实度有提升。但你要说它写代码本身更好?我觉得未必。Cursor 的官方测试里,4.8 的任务得分反而比 4.7 还低了一点。
但跑分提升的代价,太大了。