DAILY LESSON / 2026-06-10

Claude Fable 5 是 AI 的另一个决定性时刻

Anthropic 昨晚发了 Claude Fable 5。跑分屠榜，这可能是一个没有技术突破但定义了行业走向的决定性时刻。

模型评测行业趋势

昨晚 Anthropic 发了 Claude Fable 5，网上的各种介绍应该已经铺天盖地了。

我觉得，它很可能会成为 Seedance 2.0 视频模型之后又一个真正让人惊叹的决定性时刻。

简单说，它就是之前泄露的 Claude Mythos 模型的「公开版」。同一个底层引擎，但装了三道安全闸门，敏感话题会自动降级到 Opus 4.8。

大家知道我对于跑分这事本身已经麻木了，但是 Fable 5 的跑分简直有点吓人，如此的跑分来看让人不得不相信它是有点东西的，它在 SWE-Bench Pro 上达到 80.3%，Opus 4.8 是 69.2%，GPT-5.5 只有 58.6%。FrontierCode Diamond 更是离谱，Fable 5 拿到 29.3%，Opus 4.8 只有 13.4%，GPT-5.5 只有 5.7%。

我自己还没来得及实测，但我看了一些网上的实测。先说 Stripe。他们有一个 5000 万行 Ruby 程序代码的老代码库需要全库迁移。这种活正常团队排期是两个月以上，Fable 5 一天搞定了。

沃顿商学院教授 Ethan Mollick 做了更深入的测试。他让 Fable 5 做一个基于真实交通数据的交互式等时线地图，展示从某个城市出发，30 分钟、1 小时、2 小时分别能到哪些地方。模型自己调了多个 Agent，同时收集航班、铁路和道路数据，写代码，测试，根据反馈修正。他又让 Fable 5 做了一款叫 Concord 的研究工具。模型先生成 19 页设计文档，然后连续工作 9 个半小时，把整个软件开发完。

它仍然会有错误和遗漏，需要人工检查。但 9 个半小时自主开发一个完整工具，这在半年前还是不可想象的。

视觉方面，Fable 5 能只看原版游戏截图通关宝可梦火红。听起来是个花哨的 Demo，但你想想，其实就是它能理解纯视觉信息，然后自主规划、执行一个长期任务链。

到这里为止都是好消息。现在说坏消息。

Fable 5 装了三道安全分类器：网络安全的、生物化学的、模型蒸馏的。只要触发，它会静默切换到 Opus 4.8 来回答你，而且只在界面上轻轻告诉你一声。Anthropic 说 95% 以上的会话不会触发，但社区实测里，「What does the heart do?」被拦截了，问癌症相关的内容也被拦截了，做本地 CTF 练习也被判定为攻击性网络行为。Anthropic 自己也承认「护栏比理想状态更严格」。

更微妙的是另一个隐藏的保护机制。当模型检测到你在做前沿 AI 开发（比如构建预训练流水线、设计 ML 加速器）时，它不会告诉你，而是通过悄悄修改提示词或调整引导向量来降低性能。已经有用户反馈中了招。你付了 Fable 5 的钱，但输出可能已经被偷偷改过了。

Claude Fable 5 是 AI 的另一个决定性时刻

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

为什么我决定在今年全面开启出海？

Opus 4.6 和 GPT-5.3-Codex 同日发布，到底谁更强？

GPT IMAGE 2 来了，AI 生图正式进入下一个阶段

Kimi新论文重构十年深度学习基础：用注意力替换残差连接