DeepSeek-R1知识科普：什么是上下文窗口，量化方式下的显存估算

上篇文章以-R1为例，我们介绍了什么是量化，不同量化版本的差距是什么。

这篇我们来了解下什么是上下文窗口以及不同量化方式、上下文下的显存占用估算。

为什么有的模型回答会被截断？

有时候我们在一个窗口发送了许多内容的时候模型还没有思考完成，但是后续就不再继续输出了，这是因为模型回答已经达到了其“最长输出”的上限。对于的官方 API 来说，最大思维链长度为 32K，最大输出为 8K，就其原始模型来说，最大可以提供约 164K 的上下文，也就是大约能理解和输出总和差不多 10~16 万字。但在提供超长上下文的背后其实是大量的资源消耗，因此一些 API 可能不会开放最大的输出和上下文能力。对于以往的大部分非推理模型来说，可能 4K 的上下文足以满足单次对话的需求，但是对于推理模型来说，由于“思考”需要占用上下文，因此 4K 上下文可能连单次会话都不够用，对于用户使用产生明显的困扰。

什么是模型的上下文窗口？

上下文窗口指模型在一次推理过程中能够处理的最大 Token 数量，平均一个 Token 能对应多少汉字对于不同的模型略有区别。上下文长度越长，模型能够记忆和理解的文本信息就越多，这对于长文本生成和复杂任务处理尤为重要，特别是较大规模的代码生成、专业内容的理解分析等。

上下文长度对模型效果的影响

显存大小如何估算

模型的显存占用主要由以下部分组成：

1. 模型参数：与模型的参数量和精度有关。

2. KV Cache：与上下文长度、批次大小和注意力头数量有关，此外，和推理框架的内存使用方式也有关。

3. 中间计算结果：与模型结构和输入数据有关。

相关各类模型规模和量化方式下的显存需求概览