<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>几何 on Robert | 程序员 · 生活家</title><link>https://robert-xblog.art/tags/%E5%87%A0%E4%BD%95/</link><description>Recent content in 几何 on Robert | 程序员 · 生活家</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>Robert</managingEditor><webMaster>Robert</webMaster><lastBuildDate>Mon, 16 Mar 2026 12:05:00 +0800</lastBuildDate><atom:link href="https://robert-xblog.art/tags/%E5%87%A0%E4%BD%95/index.xml" rel="self" type="application/rss+xml"/><item><title>1. 第一章：意义的几何学 —— 语言的向量化</title><link>https://robert-xblog.art/tech/llm-principle/1-chapter1-embedding/</link><pubDate>Mon, 16 Mar 2026 12:05:00 +0800</pubDate><author>Robert</author><guid>https://robert-xblog.art/tech/llm-principle/1-chapter1-embedding/</guid><description>&lt;p>&lt;strong>(The Geometry of Meaning: Vectorization of Language)&lt;/strong>&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;语言的界限，即是世界的界限。&amp;rdquo; —— 路德维希·维特根斯坦&lt;/p>
&lt;p>&amp;ldquo;大自然这本书是用数学语言写成的。&amp;rdquo; —— 伽利略·伽利雷&lt;/p>
&lt;p>&amp;ldquo;万物皆数。&amp;rdquo; —— 毕达哥拉斯&lt;/p>
&lt;/blockquote>
&lt;hr>
&lt;h2 id="引言从符号到坐标的惊险跳跃">引言：从符号到坐标的惊险跳跃&lt;/h2>
&lt;p>当我们谈论 ChatGPT 或 Claude &amp;ldquo;读懂&amp;quot;了一本书时，我们到底在谈论什么？&lt;/p>
&lt;p>在硅基的视网膜上，没有字母 &lt;code>A&lt;/code>，没有汉字&lt;code>爱&lt;/code>，也没有单词&lt;code>Apple&lt;/code>。计算机的底层只有电流的通断（0 和 1）。晶体管的开与关，电压的高与低，磁畴的南与北——这就是数字世界的全部物理基础。&lt;/p>
&lt;p>要让计算机处理语言，我们必须完成一次从&lt;strong>符号（Symbol）&lt;/strong> 到&lt;strong>数学空间（Mathematical Space）&lt;/strong> 的惊险跳跃。&lt;/p>
&lt;p>这不是简单的&amp;quot;翻译&amp;rdquo;，这是一次&lt;strong>本体论的转换&lt;/strong>。&lt;/p>
&lt;p>符号是离散的、任意的、文化依赖的。&amp;ldquo;苹果&amp;quot;这个词与实际的苹果之间没有必然联系——中文叫&amp;quot;苹果&amp;rdquo;，英文叫&amp;quot;Apple&amp;quot;，法文叫&amp;quot;Pomme&amp;quot;。符号的意义来自社会约定，不是来自物理本质。&lt;/p>
&lt;p>但数学空间是连续的、确定的、普适的。向量 &lt;code>[0.82, -0.15, 0.33, ..., 0.05]&lt;/code> 在任何文化中都是同一个数学对象。它的意义来自它在高维空间中的位置，来自它与其他向量的几何关系。&lt;/p>
&lt;p>这一章的故事，关于我们如何把字典里的每一个词，变成高维空间里的一颗星星。&lt;/p>
&lt;p>关于语义如何变成几何。&lt;/p>
&lt;p>关于意义如何变成坐标。&lt;/p>
&lt;p>关于我们如何用线性代数，描述人类最引以为傲的语言能力。&lt;/p>
&lt;hr>
&lt;h2 id="11-计算机眼中的苹果从符号到坐标">1.1 计算机眼中的&amp;quot;苹果&amp;quot;：从符号到坐标&lt;/h2>
&lt;h3 id="what符号的困境">What：符号的困境&lt;/h3>
&lt;p>想象一下，你是一个只能做加减乘除的计算器。现在，我让你计算：&lt;/p>
&lt;p>$$ \text{苹果} - \text{梨} = ? $$&lt;/p>
&lt;p>你会死机。因为&amp;quot;苹果&amp;quot;和&amp;quot;梨&amp;quot;是符号，不是数。你无法对符号进行微分，也无法对它们求梯度。为了让你能工作，我必须把这些符号变成数。&lt;/p>
&lt;p>但这不仅仅是&amp;quot;编码&amp;quot;那么简单。&lt;/p>
&lt;p>在计算机科学中，我们有过多种将符号变为数字的尝试。每一种尝试，都反映了人类对&amp;quot;意义&amp;quot;理解的一个阶段。&lt;/p>
&lt;h3 id="111-独热编码one-hot孤独的灯塔">1.1.1 独热编码（One-Hot）：孤独的灯塔&lt;/h3>
&lt;p>&lt;strong>What：什么是 One-Hot 编码&lt;/strong>&lt;/p>
&lt;p>最早期的尝试非常朴素。假设我们的字典里只有 5 个词：&lt;code>[苹果，梨，手机，电脑，书]&lt;/code>。&lt;/p>
&lt;p>我们可以这样编码：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>词&lt;/th>
&lt;th>One-Hot 编码&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>苹果&lt;/td>
&lt;td>&lt;code>[1, 0, 0, 0, 0]&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>梨&lt;/td>
&lt;td>&lt;code>[0, 1, 0, 0, 0]&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>手机&lt;/td>
&lt;td>&lt;code>[0, 0, 1, 0, 0]&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>电脑&lt;/td>
&lt;td>&lt;code>[0, 0, 0, 1, 0]&lt;/code>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>书&lt;/td>
&lt;td>&lt;code>[0, 0, 0, 0, 1]&lt;/code>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>这种方法叫 &lt;strong>One-Hot Encoding（独热编码）&lt;/strong>。它就像在黑暗的荒原上竖起了无数座灯塔，每个词都是一座孤岛。&lt;/p></description></item><item><title>00. 万物皆数：大语言模型的数学本质与哲学构建</title><link>https://robert-xblog.art/tech/llm-principle/00-llm-math-overview/</link><pubDate>Mon, 16 Mar 2026 12:00:00 +0800</pubDate><author>Robert</author><guid>https://robert-xblog.art/tech/llm-principle/00-llm-math-overview/</guid><description>&lt;h1 id="万物皆数大语言模型的数学本质与哲学构建">《万物皆数：大语言模型的数学本质与哲学构建》&lt;/h1>
&lt;h2 id="副标题从高维几何到智能涌现的推演实录">副标题：从高维几何到智能涌现的推演实录&lt;/h2>
&lt;p>总计：138,881 字&lt;/p>
&lt;hr>
&lt;h1 id="-全书大纲">📖 全书大纲&lt;/h1>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>章节&lt;/th>
&lt;th>标题&lt;/th>
&lt;th>简介&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>0&lt;/td>
&lt;td>&lt;strong>&lt;a href="../0-preface/">序言：打破黑盒的幻象&lt;/a>
&lt;/strong> - 去神秘化的起点&lt;/td>
&lt;td>从科幻神话回归矩阵运算，开启数学之旅&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>1&lt;/td>
&lt;td>&lt;strong>&lt;a href="../1-chapter1-embedding/">第一章：意义的几何学&lt;/a>
&lt;/strong> - 语言的向量化&lt;/td>
&lt;td>Token、Embedding、语义空间与高维几何&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>2&lt;/td>
&lt;td>&lt;strong>&lt;a href="../2-chapter2-attention/">第二章：智能的原子&lt;/a>
&lt;/strong> - 注意力机制的解构&lt;/td>
&lt;td>Self-Attention、Q/K/V、Softmax 与位置编码&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>3&lt;/td>
&lt;td>&lt;strong>&lt;a href="../3-chapter3-multihead/">第三章：多维视角的涌现&lt;/a>
&lt;/strong> - 多头注意力与 FFN&lt;/td>
&lt;td>Multi-Head、子空间分化、FFN 知识存储与残差连接&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>4&lt;/td>
&lt;td>&lt;strong>&lt;a href="../4-chapter4-gradient/">第四章：痛苦的学习&lt;/a>
&lt;/strong> - 梯度下降与反向传播&lt;/td>
&lt;td>Loss 地形、链式法则、压缩即智能与优化算法&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>5&lt;/td>
&lt;td>&lt;strong>&lt;a href="../5-chapter5-decoder/">第五章：时间的箭头&lt;/a>
&lt;/strong> - Decoder-Only 的统治&lt;/td>
&lt;td>架构之争、因果掩码、KV Cache 与推理优化&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>6&lt;/td>
&lt;td>&lt;strong>&lt;a href="../6-chapter6-epilogue/">终章：毕达哥拉斯的幽灵&lt;/a>
&lt;/strong> - 数学哲学反思&lt;/td>
&lt;td>数学的有效性、智能的本质与终极限制&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="序言打破黑盒的幻象-the-disenchantment">序言：打破黑盒的幻象 (The Disenchantment)&lt;/h2>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>0.1 那个 20GB 的文件是什么？&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>它不是大脑，不是灵魂，它是被固化的数学公式&lt;/li>
&lt;li>从&amp;quot;科幻神话&amp;quot;回归到&amp;quot;矩阵运算&amp;quot;&lt;/li>
&lt;li>350 亿个参数的本质：350 亿个可调节的旋钮&lt;/li>
&lt;li>去神秘化：LLM 不是魔法，是工程&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>0.2 伽利略的预言&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&amp;ldquo;大自然这本书是用数学语言写成的&amp;rdquo;&lt;/li>
&lt;li>人类语言（人文）与数学（理工）的世纪和解&lt;/li>
&lt;li>语言是对世界的压缩，数学是压缩的元语言&lt;/li>
&lt;li>道可道，非常道：可言说的与不可言说的边界&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>0.3 本书的旅程&lt;/strong>&lt;/p></description></item></channel></rss>