5. 第五章:时间的箭头 —— Decoder-Only 的统治

(The Arrow of Time: The Reign of Decoder-Only) “我们不能两次踏进同一条河流。” —— 赫拉克利特 “预测未来比解释过去更难。” —— 本书核心论点 “因果律是智能的基石。” —— 本章主旨 引言:架构选择的终极问题 第五章是全书的架构核心,也是对当前 LLM 发展格局的终极解释。 为什么在 Transformer 的家族中,BERT(双向)和 T5(Encoder-Decoder)逐渐式微,而 GPT(Decoder-Only)一统天下? 这不仅仅是工程选择,更是对因果律(Causality) 和 生成式任务(Generative Task) 本质的深刻洞察。 在第一章中,我们看到了语言如何变成向量。 在第二章中,我们看到了注意力如何建立联系。 在第三章中,我们看到了多头如何解耦特征。 在第四章中,我们看到了梯度下降如何"雕刻"参数。 但还有一个根本问题没有回答: 为什么是 Decoder-Only? 为什么不是 Encoder-Only(如 BERT)? 为什么不是 Encoder-Decoder(如 T5)? 这是一个价值千亿美元的问题。 2018 年,BERT 发布时,它是 NLP 的王者。它在所有基准测试上屠榜,被认为是 NLP 的未来。 2020 年,GPT-3 发布时,它展示了惊人的少样本学习能力。 2022 年,ChatGPT 发布时,全世界都意识到了:Decoder-Only 架构赢了。 今天(2026 年),几乎所有主流大模型都是 Decoder-Only: GPT-4/4.5/5(OpenAI) Claude 3.5/3.7(Anthropic) LLaMA 2/3/3.1(Meta) Qwen2.5/3/3.5(阿里) Gemini 1.5/2(Google) 这不是巧合。这是数学必然。 ...

March 16, 2026 · 11 min · 2302 words · Robert