<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Decoder-Only on Robert | 程序员 · 生活家</title><link>https://robert-xblog.art/tags/decoder-only/</link><description>Recent content in Decoder-Only on Robert | 程序员 · 生活家</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>Robert</managingEditor><webMaster>Robert</webMaster><lastBuildDate>Mon, 16 Mar 2026 12:09:00 +0800</lastBuildDate><atom:link href="https://robert-xblog.art/tags/decoder-only/index.xml" rel="self" type="application/rss+xml"/><item><title>5. 第五章：时间的箭头 —— Decoder-Only 的统治</title><link>https://robert-xblog.art/tech/llm-principle/5-chapter5-decoder/</link><pubDate>Mon, 16 Mar 2026 12:09:00 +0800</pubDate><author>Robert</author><guid>https://robert-xblog.art/tech/llm-principle/5-chapter5-decoder/</guid><description>&lt;p>&lt;strong>(The Arrow of Time: The Reign of Decoder-Only)&lt;/strong>&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;我们不能两次踏进同一条河流。&amp;rdquo; —— 赫拉克利特&lt;/p>
&lt;p>&amp;ldquo;预测未来比解释过去更难。&amp;rdquo; —— 本书核心论点&lt;/p>
&lt;p>&amp;ldquo;因果律是智能的基石。&amp;rdquo; —— 本章主旨&lt;/p>
&lt;/blockquote>
&lt;hr>
&lt;h2 id="引言架构选择的终极问题">引言：架构选择的终极问题&lt;/h2>
&lt;p>第五章是全书的&lt;strong>架构核心&lt;/strong>，也是对当前 LLM 发展格局的终极解释。&lt;/p>
&lt;p>为什么在 Transformer 的家族中，BERT（双向）和 T5（Encoder-Decoder）逐渐式微，而 GPT（Decoder-Only）一统天下？&lt;/p>
&lt;p>这不仅仅是工程选择，更是对&lt;strong>因果律（Causality）&lt;/strong> 和 &lt;strong>生成式任务（Generative Task）&lt;/strong> 本质的深刻洞察。&lt;/p>
&lt;p>在第一章中，我们看到了语言如何变成向量。&lt;/p>
&lt;p>在第二章中，我们看到了注意力如何建立联系。&lt;/p>
&lt;p>在第三章中，我们看到了多头如何解耦特征。&lt;/p>
&lt;p>在第四章中，我们看到了梯度下降如何&amp;quot;雕刻&amp;quot;参数。&lt;/p>
&lt;p>但还有一个根本问题没有回答：&lt;/p>
&lt;p>&lt;strong>为什么是 Decoder-Only？&lt;/strong>&lt;/p>
&lt;p>为什么不是 Encoder-Only（如 BERT）？&lt;/p>
&lt;p>为什么不是 Encoder-Decoder（如 T5）？&lt;/p>
&lt;p>这是一个价值千亿美元的问题。&lt;/p>
&lt;p>2018 年，BERT 发布时，它是 NLP 的王者。它在所有基准测试上屠榜，被认为是 NLP 的未来。&lt;/p>
&lt;p>2020 年，GPT-3 发布时，它展示了惊人的少样本学习能力。&lt;/p>
&lt;p>2022 年，ChatGPT 发布时，全世界都意识到了：Decoder-Only 架构赢了。&lt;/p>
&lt;p>今天（2026 年），几乎所有主流大模型都是 Decoder-Only：&lt;/p>
&lt;ul>
&lt;li>GPT-4/4.5/5（OpenAI）&lt;/li>
&lt;li>Claude 3.5/3.7（Anthropic）&lt;/li>
&lt;li>LLaMA 2/3/3.1（Meta）&lt;/li>
&lt;li>Qwen2.5/3/3.5（阿里）&lt;/li>
&lt;li>Gemini 1.5/2（Google）&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>这不是巧合。这是数学必然。&lt;/strong>&lt;/p></description></item></channel></rss>