<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>注意力 on Robert | 程序员 · 生活家</title><link>https://robert-xblog.art/tags/%E6%B3%A8%E6%84%8F%E5%8A%9B/</link><description>Recent content in 注意力 on Robert | 程序员 · 生活家</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>Robert</managingEditor><webMaster>Robert</webMaster><lastBuildDate>Mon, 16 Mar 2026 12:06:00 +0800</lastBuildDate><atom:link href="https://robert-xblog.art/tags/%E6%B3%A8%E6%84%8F%E5%8A%9B/index.xml" rel="self" type="application/rss+xml"/><item><title>2. 第二章：智能的原子 —— 注意力机制的解构</title><link>https://robert-xblog.art/tech/llm-principle/2-chapter2-attention/</link><pubDate>Mon, 16 Mar 2026 12:06:00 +0800</pubDate><author>Robert</author><guid>https://robert-xblog.art/tech/llm-principle/2-chapter2-attention/</guid><description>&lt;p>&lt;strong>(The Atom of Intelligence: Deconstructing Attention)&lt;/strong>&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;你看见的，只是你想看见的。&amp;rdquo; —— 心理学中的选择性注意&lt;/p>
&lt;p>&amp;ldquo;注意力是意识的门户。&amp;rdquo; —— 威廉·詹姆斯&lt;/p>
&lt;p>&amp;ldquo;信息的相关性，比信息本身更重要。&amp;rdquo; —— 克劳德·香农&lt;/p>
&lt;/blockquote>
&lt;hr>
&lt;h2 id="引言从静态坐标到动态能量场">引言：从静态坐标到动态能量场&lt;/h2>
&lt;p>如果说第一章的 Embedding 是给每个词发了一张静态的身份证，那么第二章的 Attention 就是让这些词在一个巨大的会议室里&lt;strong>开始交谈&lt;/strong>。&lt;/p>
&lt;p>在 Transformer 出现之前，RNN（循环神经网络）像传话筒一样，一个词一个词地传递信息。&lt;/p>
&lt;p>&amp;ldquo;我&amp;quot;传给&amp;quot;爱&amp;rdquo;，&amp;ldquo;爱&amp;quot;传给&amp;quot;你&amp;rdquo;。等到传到句子的末尾，开头的&amp;quot;我&amp;quot;早已模糊不清。&lt;/p>
&lt;p>这不仅是效率问题，这是&lt;strong>本体论的局限&lt;/strong>。&lt;/p>
&lt;p>RNN 的设计假设是：语言是时间的函数，意义在序列中累积。&lt;/p>
&lt;p>但人类的认知不是这样的。&lt;/p>
&lt;p>当你读到这句话时，你的眼睛不是逐字扫描，而是&lt;strong>跳跃式&lt;/strong>地捕捉关键信息。你的大脑不是线性处理，而是&lt;strong>并行&lt;/strong>地激活相关概念。&lt;/p>
&lt;p>&lt;strong>Attention 彻底改变了这一切。&lt;/strong>&lt;/p>
&lt;p>它让句子中的每一个词，都能&lt;strong>同时&lt;/strong>看到其他所有词，并根据它们之间的关系，&lt;strong>动态地&lt;/strong>吸收信息。&lt;/p>
&lt;p>这不是工程优化，这是&lt;strong>认知范式的转换&lt;/strong>。&lt;/p>
&lt;p>这一章，我们将深入 Transformer 的心脏，解构那个著名的公式：&lt;/p>
&lt;p>$$ \text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$&lt;/p>
&lt;p>这个公式，是智能的原子。&lt;/p>
&lt;p>它简单到可以用一行代码实现。&lt;/p>
&lt;p>它复杂到足以支撑人类语言的无限表达。&lt;/p>
&lt;p>让我们开始这场解构之旅。&lt;/p>
&lt;hr>
&lt;h2 id="21-信息的路由协议从传话到广播">2.1 信息的路由协议：从&amp;quot;传话&amp;quot;到&amp;quot;广播&amp;quot;&lt;/h2>
&lt;h3 id="what两种信息传递模式">What：两种信息传递模式&lt;/h3>
&lt;p>在计算机网络中，信息的传递有两种模式：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>模式&lt;/th>
&lt;th>&lt;strong>类比&lt;/strong>&lt;/th>
&lt;th>&lt;strong>代表架构&lt;/strong>&lt;/th>
&lt;th>&lt;strong>特点&lt;/strong>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>单播 (Unicast)&lt;/td>
&lt;td>打电话，点对点&lt;/td>
&lt;td>RNN/LSTM&lt;/td>
&lt;td>信息沿时间轴流动&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>广播 (Broadcast)&lt;/td>
&lt;td>开会，所有人听&lt;/td>
&lt;td>Transformer/Attention&lt;/td>
&lt;td>信息全局可见&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;h3 id="211-rnn-的序列瓶颈">2.1.1 RNN 的序列瓶颈&lt;/h3>
&lt;p>&lt;strong>Why：为什么 RNN 有根本局限&lt;/strong>&lt;/p></description></item></channel></rss>