GPT-5.4 发布:客观评价与 OpenClaw 适配分析
OpenAI 昨天发布了 GPT-5.4,这是他们整合了推理、编码和计算机控制能力的新一代旗舰模型。作为日课,我不打算写那种吸引眼球的新闻稿,而是基于权威数据和实测,客观分析这个模型的真实能力。
OpenAI 昨天发布了 GPT-5.4,这是他们整合了推理、编码和计算机控制能力的新一代旗舰模型。作为日课,我不打算写那种吸引眼球的新闻稿,而是基于权威数据和实测,客观分析这个模型的真实能力。
先说官方数据。GPT-5.4 在 GDPval 基准测试中达到 83%,这是一个模拟真实职场任务的测试,覆盖 44 个职业场景。相比 GPT-5.2 的 70.9%,提升明显。在计算机操作能力上,GPT-5.4 在 OSWorld 测试中达到 75%,超过了人类平均水平的 72.4%。这意味着它能通过截图理解界面、操作鼠标键盘完成任务。
编程能力方面,GPT-5.4 在 SWE-bench 上得分 77.2%,略低于 Claude Opus 4.6 Thinking 的 79.2%。在 HumanEval 上是 85.1%,MMLU Pro 是 76%。这些数字说明它在编程上很强,但并非绝对领先。
价格是每百万输入 token 2.5 美元,输出 15 美元。支持 1M token 上下文窗口,最大输出 128K token。相比之下,Claude Opus 4.6 是 5 美元输入、25 美元输出,Gemini 3.1 Pro 是 2 美元输入、12 美元输出。GPT-5.4 的定价处于中间位置。
再说实测对比。多个第三方评测显示,在纯编程任务上,Claude Opus 4.6 仍然保持领先。在推理能力上,Gemini 3.1 Pro 在 GPQA Diamond 测试中达到 94.3%,高于 GPT-5.4 的 84.2%。但 GPT-5.4 的优势在于它是第一个原生支持计算机操作的通用模型,这是其他模型不具备的。
关键来了,我自己实测了 GPT-5.4 的中文写作能力。坦白说,不如 Claude Opus 4.6。在长文写作、逻辑连贯性、语言自然度上,Claude 仍然更胜一筹。GPT-5.4 的中文输出虽然准确,但缺少那种人味,段落之间的转折和节奏感不如 Claude 顺畅。如果你主要做中文内容创作,Claude Opus 4.6 依然是更好的选择。
但 GPT-5.4 有一个非常适合的场景:OpenClaw。
OpenClaw 是一个开源的 AI Agent 框架,能让 AI 通过消息应用控制你的电脑,自动完成任务。它需要模型具备三个核心能力:工具调用、长上下文理解、计算机操作。GPT-5.4 恰好在这三个方面都很强。