自回归 | Robert | 程序员

(The Arrow of Time: The Reign of Decoder-Only) “我们不能两次踏进同一条河流。” —— 赫拉克利特 “预测未来比解释过去更难。” —— 本书核心论点 “因果律是智能的基石。” —— 本章主旨引言：架构选择的终极问题第五章是全书的架构核心，也是对当前 LLM 发展格局的终极解释。为什么在 Transformer 的家族中，BERT（双向）和 T5（Encoder-Decoder）逐渐式微，而 GPT（Decoder-Only）一统天下？这不仅仅是工程选择，更是对因果律（Causality）和生成式任务（Generative Task）本质的深刻洞察。在第一章中，我们看到了语言如何变成向量。在第二章中，我们看到了注意力如何建立联系。在第三章中，我们看到了多头如何解耦特征。在第四章中，我们看到了梯度下降如何"雕刻"参数。但还有一个根本问题没有回答：为什么是 Decoder-Only？为什么不是 Encoder-Only（如 BERT）？为什么不是 Encoder-Decoder（如 T5）？这是一个价值千亿美元的问题。 2018 年，BERT 发布时，它是 NLP 的王者。它在所有基准测试上屠榜，被认为是 NLP 的未来。 2020 年，GPT-3 发布时，它展示了惊人的少样本学习能力。 2022 年，ChatGPT 发布时，全世界都意识到了：Decoder-Only 架构赢了。今天（2026 年），几乎所有主流大模型都是 Decoder-Only： GPT-4/4.5/5（OpenAI） Claude 3.5/3.7（Anthropic） LLaMA 2/3/3.1（Meta） Qwen2.5/3/3.5（阿里） Gemini 1.5/2（Google）这不是巧合。这是数学必然。 ...