DAILY LESSON / 2026-02-12

GLM-5、MiniMax M2.5、DeepSeek新版同日炸场，一切都在卷Agentic能力

中国的这些AI厂商太坏了。今天24小时之内，中国三个旗舰大模型同时炸场，完全不让人过年啊。去年就DeepSeek一家赶着春节发布，今年全上了。但是大家千万不要觉得这只是几个新模型的发布。比模型本身更重要的是，从这几个模型的更新内容里，我们能看到2026年AI发展的一个重大转型。那就是所有的厂商，都在拼Agentic能力。什么是Agentic？为什么所有的模型都在拼了命地打造Agentic能力？原因很简单，因为Agentic才是AI在2026年真正的生产力。今天我尽量把这个问题用小白都听得懂的话详细和大家讲一讲，希望能对你有所帮助。

AI模型AI智能体AI编程DeepSeek超级个体Skill干货

作者：C 哥·C哥介绍 →

你好，我是C哥。

你现在用AI，不管是ChatGPT还是豆包还是Kimi，大部分时候是这么用的：你问一句，它答一句。你再问，它再答。说白了就是一个高级聊天框。Agentic完全不一样。你不用一步一步地问，你只需要给它一个目标。

比如你说：帮我把这个项目里的bug找出来，修好，测试通过。然后它自己就开始干了。自己读代码，自己定位问题，自己想修复方案，自己改，自己跑测试，没通过就自己调整，直到全部搞定。整个过程你不需要插手。

打个比方。传统AI是一个前台，你问什么它答什么，但它不会主动帮你做任何事。Agentic AI是一个能独立干活的员工，你把任务交给他，他自己搞定，中间遇到问题自己解决。这就是Agentic的核心：自主完成复杂任务。那这个能力在今天发布的三个模型里是怎么体现的？我们一个一个看。

先说智谱的GLM-5。GLM-5这次定位非常明确：复杂系统工程加长周期Agentic任务。什么叫长周期？举个例子，有一个测试叫Vending Bench，让AI模拟经营一台自动售货机，时间跨度是一整年。它要自己决定进什么货、定什么价、什么时候补货、怎么应对季节变化。不是回答一个问题就完了，而是要连续做出几百个决策，每个决策都会影响后面的结果。GLM-5在这个测试里拿到了开源模型第一名。

编程方面，SWE-bench Verified拿到77.8%。这个测试简单说就是给AI一个真实的开源项目，告诉它有个bug，让它自己在几十万行代码里找到问题、修复、提交。不是写个小函数，而是要理解整个项目的架构。另外GLM-5是开源的，MIT协议，兼容Claude Code和OpenClaw。

再说MiniMax M2.5。M2.5的编程能力直接拿到了当前最高分，SWE-bench Verified 80.2%。但最让我印象深刻的不是分数，是两件事。

第一，它学会了像架构师一样思考。写代码之前，它会先拆解需求、设计结构、规划模块，想清楚了才动手。这个能力不是人为设定的，是训练过程中自然涌现出来的。你让它做一个完整项目，它不会上来就瞎写。

第二，成本低到离谱。100 token每秒的速度连续跑一个小时，只要1美元。价格大概是Claude Opus的十分之一到二十分之一。

MiniMax自己也在吃自己的狗粮。他们公司内部30%的日常任务已经由M2.5自主完成，新提交的代码里80%是M2.5写的。一个AI公司自己都在大规模用自己的模型干活，这本身就说明了Agentic能力的实用价值。

最后说DeepSeek。DeepSeek这次比较低调，没有正式发布会，直接在官网悄悄更新了。根据各方面信息汇总，这并不是传说中的V4，大概率是一个轻量版本，可能叫V4 Lite，参数量大概200B左右。

它最大的变化是上下文窗口从12.8万直接拉到了100万，行业内的说法叫1M上下文，这个数字提升将近10倍。这是什么概念？大概能装下完整的三体三部曲。你可能会问，上下文跟Agentic有什么关系？

关系太大了。你想，一个AI智能体在帮你处理一个大型项目，它需要同时记住架构文档、几十个代码文件、之前的修改历史、当前的任务目标。如果上下文窗口太小，它就像一个记忆力很差的员工，干着干着就忘了前面在做什么。所以，1M上下文，本质上就是在给Agentic能力打地基。

三个模型讲完了，你有没有注意到一件事？GLM-5的口号是：从Vibe Coding到Agentic Engineering。MiniMax M2.5的口号是：为真实世界生产力而生。DeepSeek虽然没喊口号，但1M上下文本质上也是在为Agentic铺路。

同一天，三家公司，不约而同押注同一个方向。为什么？因为Agentic能力就是生产力。而生产力才能赚钱。

你想想，一个只能聊天的AI，你愿意为它付多少钱？大多数人的答案是最好免费。事实上现在各家的聊天机器人也确实在疯狂打价格战，越来越便宜。

但一个能帮你自主完成工作的AI呢？如果它一个小时能帮你做完一份财务报告，帮你搭好一个网站，帮你处理完一整天的数据分析，你愿意付多少钱？

企业的答案是：很多钱。逻辑就是这么简单。只有Agentic能力足够强，模型才能真正帮用户干活，用户才愿意付费，公司才能活下去。

那你可能会问，Agentic能力到底靠什么来实现？答案是编程。

你回头看看刚才讲的那些评测。SWE-bench，考的是在真实项目里自主修bug，这是编程。BrowseComp，考的是自主操作浏览器搜索信息、提取内容，浏览器的自动化操作本质上也是编程。工具调用，考的是自主决定调用哪个API、传什么参数、怎么处理返回结果，这还是编程。甚至DeepSeek把上下文拉到1M，最直接的受益场景就是让Agent能在超大型代码项目里持续工作而不丢失记忆。

所以Agentic能力强不强，很大程度上就取决于编程能力强不强。编程是Agentic的底层引擎。

GLM-5、MiniMax M2.5、DeepSeek新版同日炸场，一切都在卷Agentic能力

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

我用哪些大模型，以及怎么买到便宜 token

Opus 4.6 和 GPT-5.3-Codex 同日发布，到底谁更强？

过去半年，所有 AI 的写作能力都在断崖式暴跌

为什么在AI时代，HTML终将取代PPT？