4. 第四章:痛苦的学习 —— 梯度下降与反向传播
(The Pain of Learning: Gradient Descent & Backpropagation) “所谓经验,不过是人们给自己的错误取的名字。” —— 奥斯卡·王尔德 “智能是压缩的副产品。” —— 本书核心论点 “学习不是天赋,是痛苦计算的产物。” —— 本章主旨 引言:从静态架构到动态进化 如果说前三章是在搭建静态的架构(骨骼与肌肉),那么这一章我们要注入灵魂——学习(Learning)。 我们将探讨模型是如何从一堆随机初始化的参数,变成一个通晓人类语言的智者的。 这个过程充满了数学上的暴力美学。 在第一章中,我们看到了语言如何变成向量。 在第二章中,我们看到了注意力如何建立联系。 在第三章中,我们看到了多头如何解耦特征。 但这些都是静态的。 一个随机初始化的 Transformer,和一个训练好的 Transformer,架构完全相同。 参数都是矩阵,计算都是矩阵乘法。 区别在哪里? 区别在于:训练好的模型,其参数经过了数万亿次的梯度下降优化。 每一个参数,都被梯度"雕刻"过无数次。 每一个权重,都凝固了人类语言的统计规律。 这一章,我们将不再把模型看作一个静止的物体,而是一个正在进化的生命体。 它的进化动力,源于一个简单而残酷的目标:预测下一个词(Next Token Prediction)。 为了实现这个目标,模型必须经历一场漫长的、痛苦的、涉及数万亿次计算的"试错"之旅。 这是一场没有意识的进化。 这是一场由数学驱动的进化。 这是一场由梯度下降导演的进化。 让我们开始这场旅程。 4.1 盲人与群山:损失函数的地形图 What:损失函数的物理图像 想象一下,你是一个盲人,被随机扔到了喜马拉雅山脉的某个位置。 你的任务是:找到全世界最低的那个点(马里亚纳海沟)。 这就是模型训练的本质。 4.1.1 参数空间(Parameter Space) What:什么是参数空间 在这个比喻中: 比喻元素 对应概念 数学表达 你的位置 模型当前的参数状态 $\theta \in \mathbb{R}^{350亿}$ 你的高度 模型当前的损失(Loss) $L(\theta)$ 地形 由训练数据决定的 Loss 曲面 $L: \mathbb{R}^{350亿} \rightarrow \mathbb{R}$ 最低点 最优参数(Loss 最小) $\theta^* = \arg\min L(\theta)$ 关键洞察: ...