反向传播 | Robert | 程序员

(The Pain of Learning: Gradient Descent & Backpropagation) “所谓经验，不过是人们给自己的错误取的名字。” —— 奥斯卡·王尔德 “智能是压缩的副产品。” —— 本书核心论点 “学习不是天赋，是痛苦计算的产物。” —— 本章主旨引言：从静态架构到动态进化如果说前三章是在搭建静态的架构（骨骼与肌肉），那么这一章我们要注入灵魂——学习（Learning）。我们将探讨模型是如何从一堆随机初始化的参数，变成一个通晓人类语言的智者的。这个过程充满了数学上的暴力美学。在第一章中，我们看到了语言如何变成向量。在第二章中，我们看到了注意力如何建立联系。在第三章中，我们看到了多头如何解耦特征。但这些都是静态的。一个随机初始化的 Transformer，和一个训练好的 Transformer，架构完全相同。参数都是矩阵，计算都是矩阵乘法。区别在哪里？区别在于：训练好的模型，其参数经过了数万亿次的梯度下降优化。每一个参数，都被梯度"雕刻"过无数次。每一个权重，都凝固了人类语言的统计规律。这一章，我们将不再把模型看作一个静止的物体，而是一个正在进化的生命体。它的进化动力，源于一个简单而残酷的目标：预测下一个词（Next Token Prediction）。为了实现这个目标，模型必须经历一场漫长的、痛苦的、涉及数万亿次计算的"试错"之旅。这是一场没有意识的进化。这是一场由数学驱动的进化。这是一场由梯度下降导演的进化。让我们开始这场旅程。 4.1 盲人与群山：损失函数的地形图 What：损失函数的物理图像想象一下，你是一个盲人，被随机扔到了喜马拉雅山脉的某个位置。你的任务是：找到全世界最低的那个点（马里亚纳海沟）。这就是模型训练的本质。 4.1.1 参数空间（Parameter Space） What：什么是参数空间在这个比喻中：比喻元素对应概念数学表达你的位置模型当前的参数状态 $\theta \in \mathbb{R}^{350亿}$ 你的高度模型当前的损失（Loss） $L(\theta)$ 地形由训练数据决定的 Loss 曲面 $L: \mathbb{R}^{350亿} \rightarrow \mathbb{R}$ 最低点最优参数（Loss 最小） $\theta^* = \arg\min L(\theta)$ 关键洞察： ...