DAILY LESSON / 2026-03-05

GPT-5.4 发布：客观评价与 OpenClaw 适配分析

OpenAI 昨天发布了 GPT-5.4，这是他们整合了推理、编码和计算机控制能力的新一代旗舰模型。作为日课，我不打算写那种吸引眼球的新闻稿，而是基于权威数据和实测，客观分析这个模型的真实能力。

AI模型GPT5.4OpenAIClaudeOpenClawAI智能体超级个体

先说官方数据。GPT-5.4 在 GDPval 基准测试中达到 83%，这是一个模拟真实职场任务的测试，覆盖 44 个职业场景。相比 GPT-5.2 的 70.9%，提升明显。在计算机操作能力上，GPT-5.4 在 OSWorld 测试中达到 75%，超过了人类平均水平的 72.4%。这意味着它能通过截图理解界面、操作鼠标键盘完成任务。

编程能力方面，GPT-5.4 在 SWE-bench 上得分 77.2%，略低于 Claude Opus 4.6 Thinking 的 79.2%。在 HumanEval 上是 85.1%，MMLU Pro 是 76%。这些数字说明它在编程上很强，但并非绝对领先。

价格是每百万输入 token 2.5 美元，输出 15 美元。支持 1M token 上下文窗口，最大输出 128K token。相比之下，Claude Opus 4.6 是 5 美元输入、25 美元输出，Gemini 3.1 Pro 是 2 美元输入、12 美元输出。GPT-5.4 的定价处于中间位置。

再说实测对比。多个第三方评测显示，在纯编程任务上，Claude Opus 4.6 仍然保持领先。在推理能力上，Gemini 3.1 Pro 在 GPQA Diamond 测试中达到 94.3%，高于 GPT-5.4 的 84.2%。但 GPT-5.4 的优势在于它是第一个原生支持计算机操作的通用模型，这是其他模型不具备的。

关键来了，我自己实测了 GPT-5.4 的中文写作能力。坦白说，不如 Claude Opus 4.6。在长文写作、逻辑连贯性、语言自然度上，Claude 仍然更胜一筹。GPT-5.4 的中文输出虽然准确，但缺少那种人味，段落之间的转折和节奏感不如 Claude 顺畅。如果你主要做中文内容创作，Claude Opus 4.6 依然是更好的选择。

但 GPT-5.4 有一个非常适合的场景：OpenClaw。

OpenClaw 是一个开源的 AI Agent 框架，能让 AI 通过消息应用控制你的电脑，自动完成任务。它需要模型具备三个核心能力：工具调用、长上下文理解、计算机操作。GPT-5.4 恰好在这三个方面都很强。

GPT-5.4 发布：客观评价与 OpenClaw 适配分析

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

GPT-5.5：完全重新训练的新一代 GPT 模型

Opus 4.6 和 GPT-5.3-Codex 同日发布，到底谁更强？

Gemini 3.1 Pro：谷歌把推理能力翻了一倍

Nano Banana 2 深度实测：谷歌这次到底行不行？