多头注意力

(Emergence of Perspectives: Multi-Head Attention) “横看成岭侧成峰，远近高低各不同。” —— 苏轼《题西林壁》 “整体大于部分之和。” —— 亚里士多德 “多样性不是缺陷，是智能的必要条件。” —— 本书核心论点引言：从单通道到多声部如果说第二章的 Attention 是一个精密的齿轮，那么第三章的 Multi-Head Attention 就是让这些齿轮组成一台复杂的机器，并解释这台机器为何能产生类似人类的"多维度思考"。在上一章，我们构建了一个完美的 Attention 机制。它让词与词之间建立了联系。但这里有一个隐患：如果所有的联系都挤在同一个通道里，会发生什么？想象一下，你正在读一句复杂的长难句： “尽管他不喜欢苹果公司的新手机，但它的设计确实很惊艳。” 这句话里包含了多重关系：关系类型示例需要捕捉的联系语法关系 “他"是主语，“喜欢"是谓语主谓结构指代关系 “它"指代"手机”，不是"苹果公司” 代词→实体情感关系 “不喜欢"是负面，“惊艳"是正面情感极性实体关系 “苹果"修饰"公司”，“新"修饰"手机” 修饰关系逻辑关系 “尽管…但…“表示转折逻辑连接如果你只有一个 Attention Head（注意力头），它必须同时处理所有这些关系。它的注意力分数（Attention Score）会变得一团糟： “它"既要关注"手机”（为了指代），又要关注"惊艳”（为了情感），还要关注"设计”（为了语法）。结果就是：特征纠缠（Feature Entanglement）。所有的信息混在一起，变成了噪音。这就像一个人在同一时间：听交响乐（需要捕捉旋律）看画作（需要捕捉色彩）品美酒（需要捕捉味道）单一通道无法同时处理多维信息。为了解决这个问题，Transformer 引入了 Multi-Head Attention（多头注意力）。这不是工程优化，这是认知架构的必要设计。 3.1 盲人摸象的智慧：多头的物理意义 What：什么是 Multi-Head Attention 很多人误以为 Multi-Head 只是为了像 CPU 多核一样做并行计算加速。 ...