Kimi新论文重构十年深度学习基础:用注意力替换残差连接
前阵子DeepSeek的开源,曾让硅谷巨头们重新审视他们一直坚信的算力神话。而最近,中国AI的另一股力量又给出了新的底层架构解法。
前阵子DeepSeek的开源,曾让硅谷巨头们重新审视他们一直坚信的算力神话。而最近,中国AI的另一股力量又给出了新的底层架构解法。
Kimi团队刚刚发布了一篇名为 Attention Residuals 的技术报告。这绝对不是一次普通的论文发布,它很可能会改变未来AI底层架构的走向。今天这篇日课,我把这篇非常硬核的论文掰开揉碎了讲给你听,保证哪怕你完全不懂技术,也能明白它到底牛在哪里。
要看懂Kimi这篇论文,我们得先知道现有的AI大模型底层到底在用什么。自从2015年残差网络诞生以来,几乎所有的深度学习模型都在用一种叫残差连接的机制。听不懂没关系,我给你打个比方。
传统的残差连接,本质上是一种非常死板的接力赛。假设模型有一百层,第一层处理完的信息,必须老老实实地加上第二层的信息,再传给第三层,一路累加,一直流转到第一百层。这种把输入直接加到输出上的简单逻辑,陪伴了AI界整整十年。
但这在大模型越做越深的时候,带来了两个致命的副作用。
第一是信息稀释。就像你在一壶水里泡了一片顶级茶叶,水倒来倒去过了99个人的杯子,到最后一个人嘴里早就没茶味了。深层网络根本没法有效利用底层最原始、最关键的特征。
第二是隐藏状态爆炸。为了不让信息被冲淡,后边每一层都在拼命放大自己的输出,最后导致整个模型的数据无序膨胀。这就好比水压太高,直接把水管给撑爆了。反映在大模型训练上,就是模型极不稳定,随时可能崩溃。
这几乎是限制当今大模型走向更深的一个物理学魔咒。而Kimi这篇论文的解法非常巧妙,通俗来说就是:把注意力机制旋转了90度。