3. 第三章：多维视角的涌现 —— 多头注意力

Robert — Mon, 16 Mar 2026 12:07:00 +0800

(Emergence of Perspectives: Multi-Head Attention)

“横看成岭侧成峰，远近高低各不同。” —— 苏轼《题西林壁》

“整体大于部分之和。” —— 亚里士多德

“多样性不是缺陷，是智能的必要条件。” —— 本书核心论点

引言：从单通道到多声部

如果说第二章的 Attention 是一个精密的齿轮，那么第三章的 Multi-Head Attention 就是让这些齿轮组成一台复杂的机器，并解释这台机器为何能产生类似人类的"多维度思考"。

在上一章，我们构建了一个完美的 Attention 机制。它让词与词之间建立了联系。

但这里有一个隐患：如果所有的联系都挤在同一个通道里，会发生什么？

想象一下，你正在读一句复杂的长难句：

“尽管他不喜欢苹果公司的新手机，但它的设计确实很惊艳。”

这句话里包含了多重关系：

如果你只有一个 Attention Head（注意力头），它必须同时处理所有这些关系。

它的注意力分数（Attention Score）会变得一团糟：

这就像一个人在同一时间：

单一通道无法同时处理多维信息。

为了解决这个问题，Transformer 引入了 Multi-Head Attention（多头注意力）。

这不是工程优化，这是认知架构的必要设计。

很多人误以为 Multi-Head 只是为了像 CPU 多核一样做并行计算加速。