Claude Sonnet 4.6 发布:中端价格,旗舰实力
Hello,我是C哥。
Hello,我是C哥。
昨天,Anthropic 正式发布了 Claude Sonnet 4.6。这是继12天前 Opus 4.6 之后,Anthropic 在半个月内推出的第二个重磅模型。
一句话总结:Sonnet 4.6 用中端的价格,做到了旗舰级的表现。
先说最核心的数据。
在编程能力上,Sonnet 4.6 在 SWE-bench Verified 上拿到了 79.6%,而 Opus 4.6 是 80.8%。差距只有 1.2 个百分点,但价格差了将近一倍——Sonnet 是每百万 token 3 美元输入、15 美元输出,Opus 是 5 美元和 25 美元。
在电脑操控能力上,Sonnet 4.6 在 OSWorld 基准测试中拿到了 72.5%。要知道,2024年10月这个能力刚推出的时候,得分只有 14.9%。16个月,从不到15%飙到72.5%,接近5倍的提升。而 Opus 4.6 在同一测试上也只有 72.7%,几乎打平。
更有意思的是,在办公场景和金融分析这两个最贴近真实工作的测试中,Sonnet 4.6 反而超过了 Opus 4.6。办公任务评分 1633 对 1606,金融分析 63.3% 对 60.1%。便宜的模型在实际工作中打赢了贵的模型,这在以前是不可想象的。
这次 Sonnet 4.6 还带来了两个对智能体工作流特别重要的新能力。