是什麼
上下文窗口(Context Window)指一個大模型在單次調用中能同時處理的最大 token 數量,涵蓋你輸入的提示詞與它生成的回答之和。它以 token 計量——1 個 token 大致對應 0.5~1 個漢字,或約 0.75 個英文單詞。窗口越大,模型一次能「讀進去」的內容越多,例如整本書、長篇合同或大型代碼庫。
為什麼重要
上下文窗口決定了模型能不能在一次對話裡「記住」足夠多的信息。窗口太小,長文檔要拆分處理、容易丟失前後關聯;窗口夠大,則能讓模型基於完整材料作答,是長文分析、代碼理解、檢索增強等場景的前提。但更大的窗口並非全是好處:輸入越長,按 token 計費的 API 費用越高、推理延遲也越大;研究還發現模型對超長上下文「中間部分」的信息利用率會下降(俗稱 lost in the middle),因此標稱窗口與實際可用質量未必一致。
與五層蛋糕的關係
上下文窗口是「模型」層的核心規格之一。它直接放大對「基礎設施」與「芯片」層的算力與顯存消耗——窗口越大,單次推理要緩存的中間狀態越多、佔用顯存越高。向上,它決定了「應用」層能構建多複雜的長文檔、長對話產品。