DAILY LESSON / 2026-04-23

DeepSeek V4：不是最强，但它承载了太多

今天，等了快一年的 DeepSeek V4，终于发布了。说真的，这个模型我期待太久了。不只是我，你只要看看网上的谣言有多少就知道了，从几个月前开始到今天，几乎每隔一两周都有人在说 DeepSeek V4 要来了，但真的来了之后，我依然非常激动。

DeepSeekAI模型AI动态国产芯片算力AI

作者：C 哥·C哥介绍 →

先说下模型的性能。我自己已经做了大量的实测，我可以直接跟大家讲，这次 DeepSeek V4 在性能上虽然确实很不错，绝对在第一阶梯之内，但是远远谈不上顶尖，先不说和 Claude Opus 4.7 或者 GPT-5.5 这种顶尖的闭源模型比，就算在国产开源模型里，它也没有达到断崖式的领先。

这次 DeepSeek 学了海外模型，搞了两个版本。一个是 Pro，总参数 1.6T，直接是上一代 V3.2（671B）的大概两倍半，这个参数量很可能是历史上开源模型里参数量最大的模型，当然我要说下这个我没做全面的调研，但至少比较有名的里面它应该是最大的了。对于 DeepSeek 这种在算力上抠门到极致的团队来说，做了个这么大的模型，我只能说，但凡 DeepSeek 能找到其他方法它肯定不会这么干。所以大力出奇迹这个事，对于 AI 模型来讲还是太重要了。

那这个 Pro 版本的能力怎么样呢？结合跑分、我自己测试还有网上好多网友实测，我简单总结了下。编程能力是第一阶梯，大概是 Claude 4.5 Sonnet 的水平，距离 GPT-5.5，Opus 5.7 这种还差的比较多。不过说真的，Claude 4.5 Sonnet 已经相当的强了，所以 DeepSeek V4 在编程上已经相当能打了。

比较让人惊喜的其实是 Agent 能力，这个对于智能体直接干活太重要了，DeepSeek 这次的 Agent 能力我觉得几乎顶尖水平了，看跑分和 GPT-5.5 和 Opus 4.7 基本不相上下。

然后就是世界知识，这个太牛了，接近 Gemini 3.1 Pro 的水平。这个世界知识强就意味着模型对各种非常小众的知识的记忆，这个能力在很多场景里是非常重要的，但是这一点会被大部分的模型给忽略掉，因为大家现在用新模型，上手一般就会测测它写代码，做游戏，做 PPT 啥的，像世界知识这种增加成本的东西，基本能省就省了。

还有个非常值得说的就是超长上下文。我直接说，如果你想追求直接扔几十万字的资料让 AI 照着干活，基本上国产模型就只有 DeepSeek V4 能打，这次 DeepSeek V4 在长上下文的效果继承了 3.2 版本的创新，相当的强。不是那种假的上下文，是真的几乎一个字一个字都能记住的那种。如果你是写小说、长论文或者写大型软件项目，这个太重要了。

还有就是创意写作和中文能力。我实在太需要一个中文能力强并且会说人话的模型了。今年出的这些模型虽然各个号称很牛，但对于写作和中文能力几乎都放弃治疗了，这一点实在是对内容创作者太不友好了。本来 Claude Opus 4.6 做的还很不错，到了 Opus 4.7 也不行了。GPT 系列我觉得从 5 开始就严重退化，到了 5.4 简直是不说人话。什么“收口”“稳稳接住”“根因”把人都快搞吐了。GPT-5.5 据说好了点，但我还没仔细测，主要是我的 Github Copitlot 里还没上 GPT-5.5。

而 DeepSeek 之前的版本据说是专门用大量中文语料微调过写作的，V4 系列有没有我不知道，我简单用它测试了几个文案，整体感觉有点失望，可能我期望太高了吧，也可能这就是提升编程、数学和 Agent 能力的代价，反正现在它写出的文章虽然还算流畅，但过渡、标题啥的那种味怎么说呢，和 GPT 和 Claude 真的是越来越像了。真不知道啥时候才能出一个真正会写人话文章的模型了。

除了 Pro，这次 DeepSeek 还出了个 Flash 版本，这个版本是真的太快了，没体会过的人或者不用智能体，只是聊聊天的人可能没有感觉，但是你但凡用 DeepSeek V4 Flash 上智能体干点活，你一定会喜欢上这种感觉，太快了，你都还没想清楚下一步要怎么下指令，它都已经干完等你了。

之前我在 AI 成长圈里和大家已经科普过为了抠门，DeepSeek V4 的几个核心技术架构上的创新，这里就不重复了。真正上手 V4 之后你就能感觉到这种爽感，不光是 Flash，连 Pro 这么大的模型，响应速度都还不错。

当然，DeepSeek 肯定保留了它最拿手的 MoE 架构。跟大家简单科普下，MoE 的意思就是虽然我班里 50 个人，但每次回答问题的时候班主任会挑几个它觉得最擅长的课代表，不会全上。所以虽然是 1.6T，但是每次推理实际出勤的只有大概 3%，49B，所以它的成本虽然比之前高，但不会那么吓人。

另外很多朋友问 R2 去哪了。结论就是 R2 再也不会有了……其实现在行业的主流做法，推理模型和非推理模型已经合并了，Claude、GPT 都是同一个模型靠参数控制思考深度，V4 这次也跟上来了，分了 high 和 max 两个档。R2 单独存在的意义就没了，就像 OpenAI 的 o3 最终也是被并进 GPT-5 里，成了最后一代的独立推理模型。

然后就是最重要的定价了。V4-Pro 每百万 token 输入 12 元、输出 24 元，换成美元大概是输入 1.74、输出 3.48。V4-Flash 更便宜，输入 1 元，输出 2 元。

DeepSeek V4：不是最强，但它承载了太多

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

DeepSeek 终于有多模态了

GPT-5.5：完全重新训练的新一代 GPT 模型

DeepSeek 已成 AI 届斩杀线

DeepSeek 已经成为 AI 届的斩杀线