Gemini 3.1 Pro:谷歌把推理能力翻了一倍
昨天,谷歌正式发布了 Gemini 3.1 Pro。
昨天,谷歌正式发布了 Gemini 3.1 Pro。
这是 Gemini 3 系列的第一个小版本迭代,但数据上的进步一点都不小。谷歌 CEO 桑达尔·皮查伊亲自发推说:ARC-AGI-2 上拿到 77.1%,推理能力是上一代 3 Pro 的两倍多。
先说 ARC-AGI-2 这个测试。它专门用来考验模型解决全新逻辑谜题的能力,不是背答案,是真正的推理。Gemini 3 Pro 之前拿了 31.1%,3.1 Pro 直接跳到 77.1%,几乎翻了一倍半。对比来看,Claude Opus 4.6 是 68.8%,GPT-5.2 是 52.9%。这个差距,在当前的模型竞争里算是相当明显的。
科学知识方面,GPQA Diamond 测试拿到 94.3%,这是一个考博士级科学问题的基准,超过了 Claude Opus 4.6 的 91.3% 和 GPT-5.2 的 92.4%。
编程和智能体方面,3.1 Pro 在 SWE-Bench Verified(真实代码库修复任务)上拿到 80.6%,和 Claude Opus 4.6 的 80.8% 基本持平。在 APEX-Agents 这个测试长程专业任务的基准上,3.1 Pro 拿到 33.5%,而上一代 3 Pro 只有 18.4%,几乎翻倍。
多语言方面,MMMLU 多语言问答测试拿到 92.6%,也是当前最高分。