DAILY LESSON / 2026-02-07

Opus 4.6 和 GPT-5.3-Codex 同日发布,到底谁更强?

前天晚上,AI 圈发生了一件非常罕见的事:Anthropic 和 OpenAI 在同一天、几乎同一时刻,各自发布了自家最强的模型。Anthropic 发了 Claude Opus 4.6,OpenAI 发了 GPT-5.3-Codex。两家前后只差了 27 分钟。

AI模型AI编程AI智能体AI动态SkillChatGPTOpenAI软件工具超级个体干货

作者:C 哥·C哥介绍 →

你好,我是C哥。

前天晚上,AI 圈发生了一件非常罕见的事:Anthropic 和 OpenAI 在同一天、几乎同一时刻,各自发布了自家最强的模型。Anthropic 发了 Claude Opus 4.6,OpenAI 发了 GPT-5.3-Codex。两家前后只差了 27 分钟。

这不是巧合,这是正面硬刚。

今天这篇日课,我不做简单的参数罗列,而是从实际落地的角度,帮你搞清楚三件事:这两个模型各自强在哪、弱在哪,以及为什么你一定要用好的模型。

先说 Opus 4.6 带来了什么

Opus 4.6 最大的变化有三个。

第一,上下文窗口从 20 万 token 直接拉到了 100 万。 这意味着你可以把一整个大型项目的代码库、几百页的法律文件、或者一整本书一次性喂给它,它都能记住并理解。在长文本检索测试 MRCR v2 中,Opus 4.6 得分 76%,而上一代 Sonnet 4.5 只有 18.5%。过去大模型聊着聊着就忘了前面说的话,这个问题在 Opus 4.6 上基本被解决了。

第二,引入了 Agent Teams。 在 Claude Code 里,你现在可以让多个 AI 智能体同时协作。比如一个负责写代码,一个负责测试,一个负责文档,它们自己分工、自己协调。Rakuten 用这个功能做了个测试:Opus 4.6 在一天之内自主关闭了 13 个 GitHub Issue,并把 12 个 Issue 分配给了正确的团队成员,管理的是一个 50 人的组织、6 个代码仓库。

第三,网络安全能力大幅提升。 Anthropic 的红队在发布前用 Opus 4.6 扫描开源代码库,发现了超过 500 个此前从未被发现的高危零日漏洞,其中一些漏洞已经存在了几十年。它甚至会主动写出漏洞验证代码来证明问题是真实的。

在评测数据上,Opus 4.6 在 GDPval-AA(衡量金融、法律等知识工作能力的评测)中拿到了 1606 Elo,比 OpenAI 的 GPT-5.2 高出 144 分。在 SWE-bench Verified(真实世界 Bug 修复测试)中拿到 80.8%。在 Humanity's Last Exam(多学科推理测试)中也是所有模型里最高的。

再说 GPT-5.3-Codex 的杀手锏

GPT-5.3-Codex 走的是另一条路。它把 GPT-5.2 的通用推理能力和 Codex 系列的编程能力合并到了一个模型里,而且速度提升了 25%。

最震撼的一点:这是第一个帮助构建了自己的 AI 模型。 OpenAI 的团队用 GPT-5.3-Codex 的早期版本来调试自己的训练过程、管理部署、诊断测试结果。也就是说,这个模型参与了自己的诞生。

在终端操作能力上,它是目前最强的。 Terminal-Bench 2.0 测试中,GPT-5.3-Codex 拿到 77.3%,远超上一代的 64%。这个测试衡量的是 AI 在命令行环境中执行开发操作的能力,对做 AI 编程的人来说非常关键。

电脑操作能力也有质的飞跃。 在 OSWorld-Verified 测试中,GPT-5.3-Codex 得分 64.7%,而上一代只有 38.2%。这意味着它不仅能写代码,还能像人一样操作电脑桌面完成各种任务。

实时协作是它的独特卖点。 在 Codex 的 macOS 桌面应用里,你可以在 AI 工作的过程中随时介入,问它问题、给它反馈、调整方向,而不会打断它的工作流。这就像你坐在一个程序员旁边,随时可以拍拍他的肩膀说:等一下,换个方案。

不过,GPT-5.3-Codex 也是第一个被 OpenAI 标记为网络安全高风险的模型。它的代码能力太强了,强到 OpenAI 自己都担心被滥用,所以暂时没有开放完整的 API 访问。