DeepSeek 已经成为 AI 届的斩杀线
DeepSeek 现在就是 AI 届的斩杀线。所有比它贵、还没它性能好的模型,基本可以宣布死刑了。
DeepSeek 现在就是 AI 届的斩杀线。所有比它贵、还没它性能好的模型,基本可以宣布死刑了。
原因很简单,DeepSeek V4 Pro 永久降价了,直接砍到原价的四分之一。之前 2.5 折的限时优惠,到期之后不恢复原价了,永久按这个价走。具体啥价呢?每百万 token 输入缓存命中 0.025 元,输入缓存未命中 3 元,输出 6 元。
这个价格有多狠?GPT-5.5 输出价格换算成人民币大概 216 元,DeepSeek V4 Pro 的 6 元,便宜了 30 多倍。Claude Opus 4.7、Gemini 3.1 Pro 这些海外旗舰模型,价格差距也都在 10 倍以上。
结果就是,现在一个人要接大模型的话,DeepSeek 可以满足 90% 以上的场景,但价格差 30 倍。那么你选谁?而且 DeepSeek V4 现在还只是预览版,它的性能接下来肯定还会提高。
但这里有个关键问题:DeepSeek 凭什么敢这么降价?
答案藏在它的技术架构里。
DeepSeek 从 V2 开始就押注 MoE 架构,就是混合专家模型。简单说,虽然模型总参数有 1.6 万亿,但每次推理只激活大概 3% 的参数,49B 左右。就像一个医院有 256 个专家,但每次看病只叫相关的几个科室,不是全院医生一起上。
这个架构的好处是,训练和推理成本都大幅降低。DeepSeek V3 当年只用了 278 万小时的 H800 GPU 就训完了,成本只有同级别模型的 1/14。
除了 MoE,DeepSeek V4 还搞了个全新的混合注意力机制,让长上下文处理变得很便宜,以前处理 100 万 token 可能要烧很多钱,现在成本直接降了七成多。