DAILY LESSON / 2026-02-12

GLM-5、MiniMax M2.5、DeepSeek新版同日炸场,一切都在卷Agentic能力

中国的这些AI厂商太坏了。今天24小时之内,中国三个旗舰大模型同时炸场,完全不让人过年啊。去年就DeepSeek一家赶着春节发布,今年全上了。但是大家千万不要觉得这只是几个新模型的发布。比模型本身更重要的是,从这几个模型的更新内容里,我们能看到2026年AI发展的一个重大转型。那就是所有的厂商,都在拼Agentic能力。什么是Agentic?为什么所有的模型都在拼了命地打造Agentic能力?原因很简单,因为Agentic才是AI在2026年真正的生产力。今天我尽量把这个问题用小白都听得懂的话详细和大家讲一讲,希望能对你有所帮助。

AI模型AI智能体AI编程DeepSeek超级个体Skill干货

作者:C 哥·C哥介绍 →

你好,我是C哥。

中国的这些AI厂商太坏了。今天24小时之内,中国三个旗舰大模型同时炸场,完全不让人过年啊。去年就DeepSeek一家赶着春节发布,今年全上了。但是大家千万不要觉得这只是几个新模型的发布。比模型本身更重要的是,从这几个模型的更新内容里,我们能看到2026年AI发展的一个重大转型。那就是所有的厂商,都在拼Agentic能力。什么是Agentic?为什么所有的模型都在拼了命地打造Agentic能力?原因很简单,因为Agentic才是AI在2026年真正的生产力。今天我尽量把这个问题用小白都听得懂的话详细和大家讲一讲,希望能对你有所帮助。

你现在用AI,不管是ChatGPT还是豆包还是Kimi,大部分时候是这么用的:你问一句,它答一句。你再问,它再答。说白了就是一个高级聊天框。Agentic完全不一样。你不用一步一步地问,你只需要给它一个目标。

比如你说:帮我把这个项目里的bug找出来,修好,测试通过。然后它自己就开始干了。自己读代码,自己定位问题,自己想修复方案,自己改,自己跑测试,没通过就自己调整,直到全部搞定。整个过程你不需要插手。

打个比方。传统AI是一个前台,你问什么它答什么,但它不会主动帮你做任何事。Agentic AI是一个能独立干活的员工,你把任务交给他,他自己搞定,中间遇到问题自己解决。这就是Agentic的核心:自主完成复杂任务。那这个能力在今天发布的三个模型里是怎么体现的?我们一个一个看。

先说智谱的GLM-5。GLM-5这次定位非常明确:复杂系统工程加长周期Agentic任务。什么叫长周期?举个例子,有一个测试叫Vending Bench,让AI模拟经营一台自动售货机,时间跨度是一整年。它要自己决定进什么货、定什么价、什么时候补货、怎么应对季节变化。不是回答一个问题就完了,而是要连续做出几百个决策,每个决策都会影响后面的结果。GLM-5在这个测试里拿到了开源模型第一名。

编程方面,SWE-bench Verified拿到77.8%。这个测试简单说就是给AI一个真实的开源项目,告诉它有个bug,让它自己在几十万行代码里找到问题、修复、提交。不是写个小函数,而是要理解整个项目的架构。另外GLM-5是开源的,MIT协议,兼容Claude Code和OpenClaw。

再说MiniMax M2.5。M2.5的编程能力直接拿到了当前最高分,SWE-bench Verified 80.2%。但最让我印象深刻的不是分数,是两件事。

第一,它学会了像架构师一样思考。写代码之前,它会先拆解需求、设计结构、规划模块,想清楚了才动手。这个能力不是人为设定的,是训练过程中自然涌现出来的。你让它做一个完整项目,它不会上来就瞎写。

第二,成本低到离谱。100 token每秒的速度连续跑一个小时,只要1美元。价格大概是Claude Opus的十分之一到二十分之一。

MiniMax自己也在吃自己的狗粮。他们公司内部30%的日常任务已经由M2.5自主完成,新提交的代码里80%是M2.5写的。一个AI公司自己都在大规模用自己的模型干活,这本身就说明了Agentic能力的实用价值。

最后说DeepSeek。DeepSeek这次比较低调,没有正式发布会,直接在官网悄悄更新了。根据各方面信息汇总,这并不是传说中的V4,大概率是一个轻量版本,可能叫V4 Lite,参数量大概200B左右。

它最大的变化是上下文窗口从12.8万直接拉到了100万,行业内的说法叫1M上下文,这个数字提升将近10倍。这是什么概念?大概能装下完整的三体三部曲。你可能会问,上下文跟Agentic有什么关系?

关系太大了。你想,一个AI智能体在帮你处理一个大型项目,它需要同时记住架构文档、几十个代码文件、之前的修改历史、当前的任务目标。如果上下文窗口太小,它就像一个记忆力很差的员工,干着干着就忘了前面在做什么。所以,1M上下文,本质上就是在给Agentic能力打地基。

三个模型讲完了,你有没有注意到一件事?GLM-5的口号是:从Vibe Coding到Agentic Engineering。MiniMax M2.5的口号是:为真实世界生产力而生。DeepSeek虽然没喊口号,但1M上下文本质上也是在为Agentic铺路。

同一天,三家公司,不约而同押注同一个方向。为什么?因为Agentic能力就是生产力。而生产力才能赚钱。

你想想,一个只能聊天的AI,你愿意为它付多少钱?大多数人的答案是最好免费。事实上现在各家的聊天机器人也确实在疯狂打价格战,越来越便宜。

但一个能帮你自主完成工作的AI呢?如果它一个小时能帮你做完一份财务报告,帮你搭好一个网站,帮你处理完一整天的数据分析,你愿意付多少钱?

企业的答案是:很多钱。逻辑就是这么简单。只有Agentic能力足够强,模型才能真正帮用户干活,用户才愿意付费,公司才能活下去。

那你可能会问,Agentic能力到底靠什么来实现?答案是编程。

你回头看看刚才讲的那些评测。SWE-bench,考的是在真实项目里自主修bug,这是编程。BrowseComp,考的是自主操作浏览器搜索信息、提取内容,浏览器的自动化操作本质上也是编程。工具调用,考的是自主决定调用哪个API、传什么参数、怎么处理返回结果,这还是编程。甚至DeepSeek把上下文拉到1M,最直接的受益场景就是让Agent能在超大型代码项目里持续工作而不丢失记忆。

所以Agentic能力强不强,很大程度上就取决于编程能力强不强。编程是Agentic的底层引擎。