<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>多头注意力 on Robert | 程序员 · 生活家</title><link>https://robert-xblog.art/tags/%E5%A4%9A%E5%A4%B4%E6%B3%A8%E6%84%8F%E5%8A%9B/</link><description>Recent content in 多头注意力 on Robert | 程序员 · 生活家</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>Robert</managingEditor><webMaster>Robert</webMaster><lastBuildDate>Mon, 16 Mar 2026 12:07:00 +0800</lastBuildDate><atom:link href="https://robert-xblog.art/tags/%E5%A4%9A%E5%A4%B4%E6%B3%A8%E6%84%8F%E5%8A%9B/index.xml" rel="self" type="application/rss+xml"/><item><title>3. 第三章：多维视角的涌现 —— 多头注意力</title><link>https://robert-xblog.art/tech/llm-principle/3-chapter3-multihead/</link><pubDate>Mon, 16 Mar 2026 12:07:00 +0800</pubDate><author>Robert</author><guid>https://robert-xblog.art/tech/llm-principle/3-chapter3-multihead/</guid><description>&lt;p>&lt;strong>(Emergence of Perspectives: Multi-Head Attention)&lt;/strong>&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;横看成岭侧成峰，远近高低各不同。&amp;rdquo; —— 苏轼《题西林壁》&lt;/p>
&lt;p>&amp;ldquo;整体大于部分之和。&amp;rdquo; —— 亚里士多德&lt;/p>
&lt;p>&amp;ldquo;多样性不是缺陷，是智能的必要条件。&amp;rdquo; —— 本书核心论点&lt;/p>
&lt;/blockquote>
&lt;hr>
&lt;h2 id="引言从单通道到多声部">引言：从单通道到多声部&lt;/h2>
&lt;p>如果说第二章的 Attention 是一个精密的齿轮，那么第三章的 Multi-Head Attention 就是让这些齿轮组成一台复杂的机器，并解释这台机器为何能产生类似人类的&amp;quot;多维度思考&amp;quot;。&lt;/p>
&lt;p>在上一章，我们构建了一个完美的 Attention 机制。它让词与词之间建立了联系。&lt;/p>
&lt;p>但这里有一个隐患：&lt;strong>如果所有的联系都挤在同一个通道里，会发生什么？&lt;/strong>&lt;/p>
&lt;p>想象一下，你正在读一句复杂的长难句：&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;尽管&lt;strong>他&lt;/strong>不喜欢&lt;strong>苹果&lt;/strong>公司的新&lt;strong>手机&lt;/strong>，但&lt;strong>它&lt;/strong>的设计确实很&lt;strong>惊艳&lt;/strong>。&amp;rdquo;&lt;/p>
&lt;/blockquote>
&lt;p>这句话里包含了多重关系：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>关系类型&lt;/th>
&lt;th>&lt;strong>示例&lt;/strong>&lt;/th>
&lt;th>&lt;strong>需要捕捉的联系&lt;/strong>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>语法关系&lt;/td>
&lt;td>&amp;ldquo;他&amp;quot;是主语，&amp;ldquo;喜欢&amp;quot;是谓语&lt;/td>
&lt;td>主谓结构&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>指代关系&lt;/td>
&lt;td>&amp;ldquo;它&amp;quot;指代&amp;quot;手机&amp;rdquo;，不是&amp;quot;苹果公司&amp;rdquo;&lt;/td>
&lt;td>代词→实体&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>情感关系&lt;/td>
&lt;td>&amp;ldquo;不喜欢&amp;quot;是负面，&amp;ldquo;惊艳&amp;quot;是正面&lt;/td>
&lt;td>情感极性&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>实体关系&lt;/td>
&lt;td>&amp;ldquo;苹果&amp;quot;修饰&amp;quot;公司&amp;rdquo;，&amp;ldquo;新&amp;quot;修饰&amp;quot;手机&amp;rdquo;&lt;/td>
&lt;td>修饰关系&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>逻辑关系&lt;/td>
&lt;td>&amp;ldquo;尽管&amp;hellip;但&amp;hellip;&amp;ldquo;表示转折&lt;/td>
&lt;td>逻辑连接&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>如果你只有一个 Attention Head（注意力头），它必须同时处理所有这些关系。&lt;/p>
&lt;p>它的注意力分数（Attention Score）会变得一团糟：&lt;/p>
&lt;ul>
&lt;li>&amp;ldquo;它&amp;quot;既要关注&amp;quot;手机&amp;rdquo;（为了指代），又要关注&amp;quot;惊艳&amp;rdquo;（为了情感），还要关注&amp;quot;设计&amp;rdquo;（为了语法）。&lt;/li>
&lt;li>结果就是：&lt;strong>特征纠缠（Feature Entanglement）&lt;/strong>。所有的信息混在一起，变成了噪音。&lt;/li>
&lt;/ul>
&lt;p>这就像一个人在同一时间：&lt;/p>
&lt;ul>
&lt;li>听交响乐（需要捕捉旋律）&lt;/li>
&lt;li>看画作（需要捕捉色彩）&lt;/li>
&lt;li>品美酒（需要捕捉味道）&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>单一通道无法同时处理多维信息。&lt;/strong>&lt;/p>
&lt;p>为了解决这个问题，Transformer 引入了 &lt;strong>Multi-Head Attention（多头注意力）&lt;/strong>。&lt;/p>
&lt;p>这不是工程优化，这是&lt;strong>认知架构的必要设计&lt;/strong>。&lt;/p>
&lt;hr>
&lt;h2 id="31-盲人摸象的智慧多头的物理意义">3.1 盲人摸象的智慧：多头的物理意义&lt;/h2>
&lt;h3 id="what什么是-multi-head-attention">What：什么是 Multi-Head Attention&lt;/h3>
&lt;p>很多人误以为 Multi-Head 只是为了像 CPU 多核一样做并行计算加速。&lt;/p></description></item></channel></rss>