<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>反向传播 on Robert | 程序员 · 生活家</title><link>https://robert-xblog.art/tags/%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD/</link><description>Recent content in 反向传播 on Robert | 程序员 · 生活家</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>Robert</managingEditor><webMaster>Robert</webMaster><lastBuildDate>Mon, 16 Mar 2026 12:08:00 +0800</lastBuildDate><atom:link href="https://robert-xblog.art/tags/%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD/index.xml" rel="self" type="application/rss+xml"/><item><title>4. 第四章：痛苦的学习 —— 梯度下降与反向传播</title><link>https://robert-xblog.art/tech/llm-principle/4-chapter4-gradient/</link><pubDate>Mon, 16 Mar 2026 12:08:00 +0800</pubDate><author>Robert</author><guid>https://robert-xblog.art/tech/llm-principle/4-chapter4-gradient/</guid><description>&lt;p>&lt;strong>(The Pain of Learning: Gradient Descent &amp;amp; Backpropagation)&lt;/strong>&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;所谓经验，不过是人们给自己的错误取的名字。&amp;rdquo; —— 奥斯卡·王尔德&lt;/p>
&lt;p>&amp;ldquo;智能是压缩的副产品。&amp;rdquo; —— 本书核心论点&lt;/p>
&lt;p>&amp;ldquo;学习不是天赋，是痛苦计算的产物。&amp;rdquo; —— 本章主旨&lt;/p>
&lt;/blockquote>
&lt;hr>
&lt;h2 id="引言从静态架构到动态进化">引言：从静态架构到动态进化&lt;/h2>
&lt;p>如果说前三章是在搭建静态的架构（骨骼与肌肉），那么这一章我们要注入灵魂——&lt;strong>学习（Learning）&lt;/strong>。&lt;/p>
&lt;p>我们将探讨模型是如何从一堆随机初始化的参数，变成一个通晓人类语言的智者的。&lt;/p>
&lt;p>这个过程充满了数学上的暴力美学。&lt;/p>
&lt;p>在第一章中，我们看到了语言如何变成向量。&lt;/p>
&lt;p>在第二章中，我们看到了注意力如何建立联系。&lt;/p>
&lt;p>在第三章中，我们看到了多头如何解耦特征。&lt;/p>
&lt;p>但这些都是&lt;strong>静态的&lt;/strong>。&lt;/p>
&lt;p>一个随机初始化的 Transformer，和一个训练好的 Transformer，架构完全相同。&lt;/p>
&lt;p>参数都是矩阵，计算都是矩阵乘法。&lt;/p>
&lt;p>&lt;strong>区别在哪里？&lt;/strong>&lt;/p>
&lt;p>区别在于：训练好的模型，其参数经过了&lt;strong>数万亿次&lt;/strong>的梯度下降优化。&lt;/p>
&lt;p>每一个参数，都被梯度&amp;quot;雕刻&amp;quot;过无数次。&lt;/p>
&lt;p>每一个权重，都凝固了人类语言的统计规律。&lt;/p>
&lt;p>&lt;strong>这一章，我们将不再把模型看作一个静止的物体，而是一个正在进化的生命体。&lt;/strong>&lt;/p>
&lt;p>它的进化动力，源于一个简单而残酷的目标：&lt;strong>预测下一个词（Next Token Prediction）。&lt;/strong>&lt;/p>
&lt;p>为了实现这个目标，模型必须经历一场漫长的、痛苦的、涉及数万亿次计算的&amp;quot;试错&amp;quot;之旅。&lt;/p>
&lt;p>这是一场没有意识的进化。&lt;/p>
&lt;p>这是一场由数学驱动的进化。&lt;/p>
&lt;p>这是一场由梯度下降导演的进化。&lt;/p>
&lt;p>让我们开始这场旅程。&lt;/p>
&lt;hr>
&lt;h2 id="41-盲人与群山损失函数的地形图">4.1 盲人与群山：损失函数的地形图&lt;/h2>
&lt;h3 id="what损失函数的物理图像">What：损失函数的物理图像&lt;/h3>
&lt;p>想象一下，你是一个盲人，被随机扔到了喜马拉雅山脉的某个位置。&lt;/p>
&lt;p>你的任务是：&lt;strong>找到全世界最低的那个点（马里亚纳海沟）。&lt;/strong>&lt;/p>
&lt;p>这就是模型训练的本质。&lt;/p>
&lt;h3 id="411-参数空间parameter-space">4.1.1 参数空间（Parameter Space）&lt;/h3>
&lt;p>&lt;strong>What：什么是参数空间&lt;/strong>&lt;/p>
&lt;p>在这个比喻中：&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>比喻元素&lt;/th>
&lt;th>&lt;strong>对应概念&lt;/strong>&lt;/th>
&lt;th>&lt;strong>数学表达&lt;/strong>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>你的位置&lt;/td>
&lt;td>模型当前的参数状态&lt;/td>
&lt;td>$\theta \in \mathbb{R}^{350亿}$&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>你的高度&lt;/td>
&lt;td>模型当前的损失（Loss）&lt;/td>
&lt;td>$L(\theta)$&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>地形&lt;/td>
&lt;td>由训练数据决定的 Loss 曲面&lt;/td>
&lt;td>$L: \mathbb{R}^{350亿} \rightarrow \mathbb{R}$&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>最低点&lt;/td>
&lt;td>最优参数（Loss 最小）&lt;/td>
&lt;td>$\theta^* = \arg\min L(\theta)$&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>关键洞察&lt;/strong>：&lt;/p></description></item></channel></rss>