context window

什么是“上下文窗口” (Context Window)？

它是模型在任何给定时刻能够“记住”或“处理”的词元总量的上限。就像一个固定大小的便签，模型在上面写下对话内容，写满了就必须擦掉最开始的内容才能继续写新的。
当模型需要生成下一个词元时，它会回顾这个窗口内的所有信息，并根据这些信息来决定最合适的下一个词元是什么。
一旦信息超出了这个窗口的范围（比如，在一次非常长的对话中，最开始说的话），模型就会“忘记”它，无法再利用这些信息。

想象一条长长的信息卷轴，代表着你与模型的全部对话历史。

小窗口的运作方式：

|-----------------------------------|   <-- 全部对话历史卷轴
          [ 最近的 4K 词元 ]        <-- 这是一个4K大小的“滑动窗口”
          ^----------------^
          |                  |
 模型只能看到这个窗口内的内容来做决定

随着对话的进行，这个“窗口”会不断向“最新”的方向滑动。一旦信息被滑出窗口，就相当于被遗忘了。

大窗口（大的context window）的优势：

假设你让模型总结一份很长的报告。

小窗口模型: 它可能读了报告的开头，总结一下；然后读中间，再总结一下。但因为它“忘记”了开头，所以它的总结可能是零散的、重复的，甚至前后矛盾。

[ 报告开头 ... ]  [ ... 报告中间 ... ]  [ ... 报告结尾 ]
|----窗口----|                          (总结开头)
               |----窗口----|              (总结中间，忘了开头)
                              |----窗口----| (总结结尾，忘了前面所有)

结果： 得到的可能是一份拼接起来、质量不高的摘要。

大窗口模型 (例如 32K): 它可以将整份报告一次性纳入“眼帘”。
```
[ 报告开头 .................. 报告中间 .................. 报告结尾 ]
|--------------------------------- 32K 窗口 ---------------------------------|
```
结果： 模型能够理解全文的逻辑脉络、关键论点和前后呼应的细节，从而生成一份全面、连贯、高质量的摘要。

从第一性原理来看，上下文窗口是大型语言模型（LLM）信息处理能力的一个核心限制。它不是一个神秘的技术，其本质就是一个固定大小的“记忆”缓冲区。

核心功能： 定义了模型在生成回应时所能参考的信息边界。
核心权衡： 窗口大小 vs 计算成本。更大的窗口带来了更强的语境理解能力（记忆力更好），尤其在处理长文本任务时效果显著；但同时也意味着需要更多的计算资源和更长的时间（成本更高）。

理解了这一点，你就能明白为什么扩大上下文窗口是当前LLM技术发展的一个重要方向，也就能理解为什么不同的模型或应用会根据其特定任务（如快速问答 vs. 深度文档分析）来选择不同大小的窗口。

🌱Kejia's Digital Garden

Explorer

context window

什么是“上下文窗口” (Context Window)？

Graph View

Backlinks