DeepSeek-R1知识科普:什么是上下文窗口,量化方式下的显存估算

上篇文章以-R1为例,我们介绍了什么是量化,不同量化版本的差距是什么。

这篇我们来了解下什么是上下文窗口以及不同量化方式、上下文下的显存占用估算。

为什么有的模型回答会被截断?

有时候我们在一个窗口发送了许多内容的时候模型还没有思考完成,但是后续就不再继续输出了,这是因为模型回答已经达到了其“最长输出”的上限。对于 的官方 API 来说,最大思维链长度为 32K,最大输出为 8K,就其原始模型来说,最大可以提供约 164K 的上下文,也就是大约能理解和输出总和差不多 10~16 万字。但在提供超长上下文的背后其实是大量的资源消耗,因此一些 API 可能不会开放最大的输出和上下文能力。对于以往的大部分非推理模型来说,可能 4K 的上下文足以满足单次对话的需求,但是对于推理模型来说,由于“思考”需要占用上下文,因此 4K 上下文可能连单次会话都不够用,对于用户使用产生明显的困扰。

什么是模型的上下文窗口?

上下文窗口指模型在一次推理过程中能够处理的最大 Token 数量,平均一个 Token 能对应多少汉字对于不同的模型略有区别。上下文长度越长,模型能够记忆和理解的文本信息就越多,这对于长文本生成和复杂任务处理尤为重要,特别是较大规模的代码生成、专业内容的理解分析等。

上下文长度对模型效果的影响

显存大小如何估算

模型的显存占用主要由以下部分组成:

1. 模型参数: 与模型的参数量和精度有关。

2. KV Cache: 与上下文长度、批次大小和注意力头数量有关,此外,和推理框架的内存使用方式也有关。

3. 中间计算结果: 与模型结构和输入数据有关。

相关各类模型规模和量化方式下的显存需求概览

上下文窗口_上下文窗口_显存占用估算
© 版权声明

相关文章

暂无评论

none
暂无评论...