Claude Opus 4.7 发布,官方数据很亮眼,但真实体验喜忧参半
Claude 可以说是目前世界上最重要的模型,没有之一。而就在昨天,Claude Opus 4.7 正式发布,今天的日课我就详细给大家解析一下这个新模型到底怎么样。官方给的数据很漂亮,但一线用户实测下来,喜忧参半。
Claude 可以说是目前世界上最重要的模型,没有之一。而就在昨天,Claude Opus 4.7 正式发布,今天的日课我就详细给大家解析一下这个新模型到底怎么样。官方给的数据很漂亮,但一线用户实测下来,喜忧参半。
先说官方给的数据。编程方面,SWE-bench Pro 从 4.6 的 53.4% 提到 64.3%,SWE-bench Verified 从 80.8% 提到 87.6%。在公开可用的模型里,重新拿回了第一,领先 GPT-5.4 和 Gemini 3.1 Pro。Cursor 的内部评测 CursorBench 直接从 58% 跳到 70%,这个提升幅度是肉眼可见的。
视觉能力是这次跃升最大的地方。图片最长边支持到 2576 像素,约 375 万像素,是此前 Claude 模型的三倍多。很多圈友可能不太理解视觉模型提升的意义,除了最容易想到的 PDF 解析之类的之外,其实最有用的还是在 AI 编程和前端可视化上。在前几天的日课里我讲过,有一个非常好的提升模型网页、PPT 等可视化效果的方式,就是让模型先做出来,然后直接在浏览器里渲染,然后自己截图、自己看效果怎么样。视觉能力强就意味着模型自己就能看出更精细的问题,然后再自己改代码,这能让视觉效果实现一个全自动改进的流程。
但是比较坑的是,Opus 本来就是世界最贵模型,这次更贵了。虽然表面上价格没变,输入 5 美元、输出 25 美元(每百万 token),但 Anthropic 更换了切分 Token 的算法,也就是说,同样一段文字,用 Opus 4.7 可能会比其他模型计费多 10-30% 的 Token,再加上它本来就倾向多思考,实际花费大概率会更多。而且,刚刚 Github Copilot 上线了 Opus 4.7,但倍率设置为了 7.5,就这还是 4 月底之前的“优惠定价”,过了这个月可能就更贵了。不知道 Github Copilot 是不是想靠着这次升级来逐步提升自己的定价,毕竟之前实在是太便宜了。