是什么
上下文窗口(Context Window)指一个大模型在单次调用中能同时处理的最大 token 数量,涵盖你输入的提示词与它生成的回答之和。它以 token 计量——1 个 token 大致对应 0.5~1 个汉字,或约 0.75 个英文单词。窗口越大,模型一次能「读进去」的内容越多,例如整本书、长篇合同或大型代码库。
为什么重要
上下文窗口决定了模型能不能在一次对话里「记住」足够多的信息。窗口太小,长文档要拆分处理、容易丢失前后关联;窗口够大,则能让模型基于完整材料作答,是长文分析、代码理解、检索增强等场景的前提。但更大的窗口并非全是好处:输入越长,按 token 计费的 API 费用越高、推理延迟也越大;研究还发现模型对超长上下文「中间部分」的信息利用率会下降(俗称 lost in the middle),因此标称窗口与实际可用质量未必一致。
与五层蛋糕的关系
上下文窗口是「模型」层的核心规格之一。它直接放大对「基础设施」与「芯片」层的算力与显存消耗——窗口越大,单次推理要缓存的中间状态越多、占用显存越高。向上,它决定了「应用」层能构建多复杂的长文档、长对话产品。