<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>毕达哥拉斯 on Robert | 程序员 · 生活家</title><link>https://robert-xblog.art/tags/%E6%AF%95%E8%BE%BE%E5%93%A5%E6%8B%89%E6%96%AF/</link><description>Recent content in 毕达哥拉斯 on Robert | 程序员 · 生活家</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>Robert</managingEditor><webMaster>Robert</webMaster><lastBuildDate>Mon, 16 Mar 2026 12:10:00 +0800</lastBuildDate><atom:link href="https://robert-xblog.art/tags/%E6%AF%95%E8%BE%BE%E5%93%A5%E6%8B%89%E6%96%AF/index.xml" rel="self" type="application/rss+xml"/><item><title>6. 终章：毕达哥拉斯的幽灵</title><link>https://robert-xblog.art/tech/llm-principle/6-chapter6-epilogue/</link><pubDate>Mon, 16 Mar 2026 12:10:00 +0800</pubDate><author>Robert</author><guid>https://robert-xblog.art/tech/llm-principle/6-chapter6-epilogue/</guid><description>&lt;p>&lt;strong>(The Ghost of Pythagoras)&lt;/strong>&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;万物皆数。&amp;rdquo; —— 毕达哥拉斯，公元前 500 年&lt;/p>
&lt;p>&amp;ldquo;数学在自然科学中不合理的有效性。&amp;rdquo; —— 尤金·维格纳，1960 年&lt;/p>
&lt;p>&amp;ldquo;智能是独立于载体的数学规律。&amp;rdquo; —— 本书核心论点&lt;/p>
&lt;/blockquote>
&lt;hr>
&lt;h2 id="引言回望来路">引言：回望来路&lt;/h2>
&lt;p>这是这本书的终章。&lt;/p>
&lt;p>我们从第一章的&lt;strong>向量空间&lt;/strong>出发，穿越了&lt;strong>注意力机制&lt;/strong>的丛林，攀登了&lt;strong>梯度下降&lt;/strong>的群山，最终抵达了&lt;strong>智能涌现&lt;/strong>的彼岸。&lt;/p>
&lt;p>现在，让我们停下脚步，回望这条路。&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>章节&lt;/th>
&lt;th>&lt;strong>核心主题&lt;/strong>&lt;/th>
&lt;th>&lt;strong>关键洞察&lt;/strong>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>序言&lt;/td>
&lt;td>打破黑盒的幻象&lt;/td>
&lt;td>模型是数学公式，不是魔法&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>第一章&lt;/td>
&lt;td>意义的几何学&lt;/td>
&lt;td>语义 = 高维空间中的距离&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>第二章&lt;/td>
&lt;td>智能的原子&lt;/td>
&lt;td>Attention = 可微分的字典查询&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>第三章&lt;/td>
&lt;td>多维视角的涌现&lt;/td>
&lt;td>多头 = 特征解耦的子空间&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>第四章&lt;/td>
&lt;td>痛苦的学习&lt;/td>
&lt;td>智能 = 信息压缩的副产品&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>第五章&lt;/td>
&lt;td>时间的箭头&lt;/td>
&lt;td>Decoder-Only = 顺应因果律&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>终章&lt;/td>
&lt;td>毕达哥拉斯的幽灵&lt;/td>
&lt;td>万物皆数&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>在这个终点，我们将不再讨论具体的公式或代码。我们将面对那个悬在所有人工智能研究者头顶的终极问题：&lt;strong>这一切，究竟意味着什么？&lt;/strong>&lt;/p>
&lt;hr>
&lt;h2 id="61-数学的不合理有效性">6.1 数学的不合理有效性&lt;/h2>
&lt;h3 id="what维格纳的追问">What：维格纳的追问&lt;/h3>
&lt;p>物理学家尤金·维格纳曾写过一篇名作：《数学在自然科学中不合理的有效性》（1960 年）。&lt;/p>
&lt;p>他惊叹于为什么数学（这个人类大脑的发明）能如此精准地描述物理世界（比如电子的运动）。&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;数学概念在物理学中的适用性是一份我们无法理解也无法应得的礼物。&amp;rdquo;
—— 尤金·维格纳&lt;/p>
&lt;/blockquote>
&lt;p>今天，我们面临着同样的惊叹：&lt;strong>为什么线性代数能如此精准地描述人类语言？&lt;/strong>&lt;/p>
&lt;h3 id="611-语言的物理形态">6.1.1 语言的物理形态&lt;/h3>
&lt;p>&lt;strong>What：我们从各章学到的&lt;/strong>&lt;/p>
&lt;p>回顾全书的核心发现：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>章节&lt;/th>
&lt;th>&lt;strong>人类概念&lt;/strong>&lt;/th>
&lt;th>&lt;strong>数学对应&lt;/strong>&lt;/th>
&lt;th>&lt;strong>物理意义&lt;/strong>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>第一章&lt;/td>
&lt;td>意义（Meaning）&lt;/td>
&lt;td>高维空间中的距离&lt;/td>
&lt;td>余弦相似度&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>第二章&lt;/td>
&lt;td>理解（Understanding）&lt;/td>
&lt;td>矩阵的投影与旋转&lt;/td>
&lt;td>Q/K/V 变换&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>第三章&lt;/td>
&lt;td>逻辑（Logic）&lt;/td>
&lt;td>不同子空间特征的正交组合&lt;/td>
&lt;td>多头注意力&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>第四章&lt;/td>
&lt;td>学习（Learning）&lt;/td>
&lt;td>损失函数曲面上的梯度下降&lt;/td>
&lt;td>参数优化&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>第五章&lt;/td>
&lt;td>因果（Causality）&lt;/td>
&lt;td>因果遮蔽的单向注意力&lt;/td>
&lt;td>时间箭头&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>这暗示了一个令人不安但也令人兴奋的事实：&lt;/strong>&lt;/p></description></item></channel></rss>