DAILY LESSON / 2026-02-07

Opus 4.6 和 GPT-5.3-Codex 同日发布，到底谁更强？

前天晚上，AI 圈发生了一件非常罕见的事：Anthropic 和 OpenAI 在同一天、几乎同一时刻，各自发布了自家最强的模型。Anthropic 发了 Claude Opus 4.6，OpenAI 发了 GPT-5.3-Codex。两家前后只差了 27 分钟。

AI模型AI编程AI智能体AI动态SkillChatGPTOpenAI软件工具超级个体干货

作者：C 哥·C哥介绍 →

你好，我是C哥。

这不是巧合，这是正面硬刚。

今天这篇日课，我不做简单的参数罗列，而是从实际落地的角度，帮你搞清楚三件事：这两个模型各自强在哪、弱在哪，以及为什么你一定要用好的模型。

先说 Opus 4.6 带来了什么

Opus 4.6 最大的变化有三个。

第一，上下文窗口从 20 万 token 直接拉到了 100 万。 这意味着你可以把一整个大型项目的代码库、几百页的法律文件、或者一整本书一次性喂给它，它都能记住并理解。在长文本检索测试 MRCR v2 中，Opus 4.6 得分 76%，而上一代 Sonnet 4.5 只有 18.5%。过去大模型聊着聊着就忘了前面说的话，这个问题在 Opus 4.6 上基本被解决了。

第二，引入了 Agent Teams。 在 Claude Code 里，你现在可以让多个 AI 智能体同时协作。比如一个负责写代码，一个负责测试，一个负责文档，它们自己分工、自己协调。Rakuten 用这个功能做了个测试：Opus 4.6 在一天之内自主关闭了 13 个 GitHub Issue，并把 12 个 Issue 分配给了正确的团队成员，管理的是一个 50 人的组织、6 个代码仓库。

第三，网络安全能力大幅提升。 Anthropic 的红队在发布前用 Opus 4.6 扫描开源代码库，发现了超过 500 个此前从未被发现的高危零日漏洞，其中一些漏洞已经存在了几十年。它甚至会主动写出漏洞验证代码来证明问题是真实的。

在评测数据上，Opus 4.6 在 GDPval-AA（衡量金融、法律等知识工作能力的评测）中拿到了 1606 Elo，比 OpenAI 的 GPT-5.2 高出 144 分。在 SWE-bench Verified（真实世界 Bug 修复测试）中拿到 80.8%。在 Humanity's Last Exam（多学科推理测试）中也是所有模型里最高的。

再说 GPT-5.3-Codex 的杀手锏

GPT-5.3-Codex 走的是另一条路。它把 GPT-5.2 的通用推理能力和 Codex 系列的编程能力合并到了一个模型里，而且速度提升了 25%。

最震撼的一点：这是第一个帮助构建了自己的 AI 模型。 OpenAI 的团队用 GPT-5.3-Codex 的早期版本来调试自己的训练过程、管理部署、诊断测试结果。也就是说，这个模型参与了自己的诞生。

在终端操作能力上，它是目前最强的。 Terminal-Bench 2.0 测试中，GPT-5.3-Codex 拿到 77.3%，远超上一代的 64%。这个测试衡量的是 AI 在命令行环境中执行开发操作的能力，对做 AI 编程的人来说非常关键。

电脑操作能力也有质的飞跃。 在 OSWorld-Verified 测试中，GPT-5.3-Codex 得分 64.7%，而上一代只有 38.2%。这意味着它不仅能写代码，还能像人一样操作电脑桌面完成各种任务。

实时协作是它的独特卖点。 在 Codex 的 macOS 桌面应用里，你可以在 AI 工作的过程中随时介入，问它问题、给它反馈、调整方向，而不会打断它的工作流。这就像你坐在一个程序员旁边，随时可以拍拍他的肩膀说：等一下，换个方案。

不过，GPT-5.3-Codex 也是第一个被 OpenAI 标记为网络安全高风险的模型。它的代码能力太强了，强到 OpenAI 自己都担心被滥用，所以暂时没有开放完整的 API 访问。

Opus 4.6 和 GPT-5.3-Codex 同日发布，到底谁更强？

先说 Opus 4.6 带来了什么

再说 GPT-5.3-Codex 的杀手锏

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

先说 Opus 4.6 带来了什么

再说 GPT-5.3-Codex 的杀手锏

相关推荐

GPT-5.5：完全重新训练的新一代 GPT 模型

Codex 移动版来了，400 万人已经在用了

Claude Opus 4.8 来了，但我兴奋不起来了

Codex 学会「看一遍就会」了