5. 第五章：时间的箭头 —— Decoder-Only 的统治

Robert — Mon, 16 Mar 2026 12:09:00 +0800

(The Arrow of Time: The Reign of Decoder-Only)

“我们不能两次踏进同一条河流。” —— 赫拉克利特

“预测未来比解释过去更难。” —— 本书核心论点

“因果律是智能的基石。” —— 本章主旨

引言：架构选择的终极问题

第五章是全书的架构核心，也是对当前 LLM 发展格局的终极解释。

为什么在 Transformer 的家族中，BERT（双向）和 T5（Encoder-Decoder）逐渐式微，而 GPT（Decoder-Only）一统天下？

这不仅仅是工程选择，更是对因果律（Causality） 和 生成式任务（Generative Task） 本质的深刻洞察。

在第一章中，我们看到了语言如何变成向量。

在第二章中，我们看到了注意力如何建立联系。

在第三章中，我们看到了多头如何解耦特征。

在第四章中，我们看到了梯度下降如何"雕刻"参数。

但还有一个根本问题没有回答：

为什么是 Decoder-Only？

为什么不是 Encoder-Only（如 BERT）？

为什么不是 Encoder-Decoder（如 T5）？

这是一个价值千亿美元的问题。

2018 年，BERT 发布时，它是 NLP 的王者。它在所有基准测试上屠榜，被认为是 NLP 的未来。

2020 年，GPT-3 发布时，它展示了惊人的少样本学习能力。

2022 年，ChatGPT 发布时，全世界都意识到了：Decoder-Only 架构赢了。

今天（2026 年），几乎所有主流大模型都是 Decoder-Only：

这不是巧合。这是数学必然。