2. 第二章：智能的原子 —— 注意力机制的解构

Robert — Mon, 16 Mar 2026 12:06:00 +0800

(The Atom of Intelligence: Deconstructing Attention)

“你看见的，只是你想看见的。” —— 心理学中的选择性注意

“注意力是意识的门户。” —— 威廉·詹姆斯

“信息的相关性，比信息本身更重要。” —— 克劳德·香农

引言：从静态坐标到动态能量场

如果说第一章的 Embedding 是给每个词发了一张静态的身份证，那么第二章的 Attention 就是让这些词在一个巨大的会议室里开始交谈。

在 Transformer 出现之前，RNN（循环神经网络）像传话筒一样，一个词一个词地传递信息。

“我"传给"爱”，“爱"传给"你”。等到传到句子的末尾，开头的"我"早已模糊不清。

这不仅是效率问题，这是本体论的局限。

RNN 的设计假设是：语言是时间的函数，意义在序列中累积。

但人类的认知不是这样的。

当你读到这句话时，你的眼睛不是逐字扫描，而是跳跃式地捕捉关键信息。你的大脑不是线性处理，而是并行地激活相关概念。

Attention 彻底改变了这一切。

它让句子中的每一个词，都能同时看到其他所有词，并根据它们之间的关系，动态地吸收信息。

这不是工程优化，这是认知范式的转换。

这一章，我们将深入 Transformer 的心脏，解构那个著名的公式：

$$ \text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

这个公式，是智能的原子。

它简单到可以用一行代码实现。

它复杂到足以支撑人类语言的无限表达。

让我们开始这场解构之旅。

在计算机网络中，信息的传递有两种模式：

模式	类比	代表架构	特点
单播 (Unicast)	打电话，点对点	RNN/LSTM	信息沿时间轴流动
广播 (Broadcast)	开会，所有人听	Transformer/Attention	信息全局可见

Why：为什么 RNN 有根本局限