1. 第一章:意义的几何学 —— 语言的向量化

(The Geometry of Meaning: Vectorization of Language) “语言的界限,即是世界的界限。” —— 路德维希·维特根斯坦 “大自然这本书是用数学语言写成的。” —— 伽利略·伽利雷 “万物皆数。” —— 毕达哥拉斯 引言:从符号到坐标的惊险跳跃 当我们谈论 ChatGPT 或 Claude “读懂"了一本书时,我们到底在谈论什么? 在硅基的视网膜上,没有字母 A,没有汉字爱,也没有单词Apple。计算机的底层只有电流的通断(0 和 1)。晶体管的开与关,电压的高与低,磁畴的南与北——这就是数字世界的全部物理基础。 要让计算机处理语言,我们必须完成一次从符号(Symbol) 到数学空间(Mathematical Space) 的惊险跳跃。 这不是简单的"翻译”,这是一次本体论的转换。 符号是离散的、任意的、文化依赖的。“苹果"这个词与实际的苹果之间没有必然联系——中文叫"苹果”,英文叫"Apple",法文叫"Pomme"。符号的意义来自社会约定,不是来自物理本质。 但数学空间是连续的、确定的、普适的。向量 [0.82, -0.15, 0.33, ..., 0.05] 在任何文化中都是同一个数学对象。它的意义来自它在高维空间中的位置,来自它与其他向量的几何关系。 这一章的故事,关于我们如何把字典里的每一个词,变成高维空间里的一颗星星。 关于语义如何变成几何。 关于意义如何变成坐标。 关于我们如何用线性代数,描述人类最引以为傲的语言能力。 1.1 计算机眼中的"苹果":从符号到坐标 What:符号的困境 想象一下,你是一个只能做加减乘除的计算器。现在,我让你计算: $$ \text{苹果} - \text{梨} = ? $$ 你会死机。因为"苹果"和"梨"是符号,不是数。你无法对符号进行微分,也无法对它们求梯度。为了让你能工作,我必须把这些符号变成数。 但这不仅仅是"编码"那么简单。 在计算机科学中,我们有过多种将符号变为数字的尝试。每一种尝试,都反映了人类对"意义"理解的一个阶段。 1.1.1 独热编码(One-Hot):孤独的灯塔 What:什么是 One-Hot 编码 最早期的尝试非常朴素。假设我们的字典里只有 5 个词:[苹果,梨,手机,电脑,书]。 我们可以这样编码: 词 One-Hot 编码 苹果 [1, 0, 0, 0, 0] 梨 [0, 1, 0, 0, 0] 手机 [0, 0, 1, 0, 0] 电脑 [0, 0, 0, 1, 0] 书 [0, 0, 0, 0, 1] 这种方法叫 One-Hot Encoding(独热编码)。它就像在黑暗的荒原上竖起了无数座灯塔,每个词都是一座孤岛。 ...

March 16, 2026 · 10 min · 2042 words · Robert