DAILY LESSON / 2026-02-20

Gemini 3.1 Pro：谷歌把推理能力翻了一倍

昨天，谷歌正式发布了 Gemini 3.1 Pro。

AI模型AI动态谷歌Gemini科技产业AI编程

昨天，谷歌正式发布了 Gemini 3.1 Pro。

这是 Gemini 3 系列的第一个小版本迭代，但数据上的进步一点都不小。谷歌 CEO 桑达尔·皮查伊亲自发推说：ARC-AGI-2 上拿到 77.1%，推理能力是上一代 3 Pro 的两倍多。

先说 ARC-AGI-2 这个测试。它专门用来考验模型解决全新逻辑谜题的能力，不是背答案，是真正的推理。Gemini 3 Pro 之前拿了 31.1%，3.1 Pro 直接跳到 77.1%，几乎翻了一倍半。对比来看，Claude Opus 4.6 是 68.8%，GPT-5.2 是 52.9%。这个差距，在当前的模型竞争里算是相当明显的。

科学知识方面，GPQA Diamond 测试拿到 94.3%，这是一个考博士级科学问题的基准，超过了 Claude Opus 4.6 的 91.3% 和 GPT-5.2 的 92.4%。

编程和智能体方面，3.1 Pro 在 SWE-Bench Verified（真实代码库修复任务）上拿到 80.6%，和 Claude Opus 4.6 的 80.8% 基本持平。在 APEX-Agents 这个测试长程专业任务的基准上，3.1 Pro 拿到 33.5%，而上一代 3 Pro 只有 18.4%，几乎翻倍。

多语言方面，MMMLU 多语言问答测试拿到 92.6%，也是当前最高分。

Gemini 3.1 Pro：谷歌把推理能力翻了一倍

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

Nano Banana 2 深度实测：谷歌这次到底行不行？

Kimi K2.6 开源了，国产模型需要这样的追赶者

Google I/O 2026 全面复盘：从聊天到干活，AI 的关键一跃

Kimi K2.5 震撼发布：大模型开启“集团军”作战时代