是什么
模型量化(Quantization)是一种模型压缩技术:把模型权重(以及有时连同激活值)从高精度数字格式——通常是 16 位或 32 位浮点——转换成更低精度的格式,例如 8 位或 4 位整数。数字「分辨率」降低了,但模型的整体结构不变,于是体积更小、读写与计算更快。
为什么重要
大模型的瓶颈往往不是算力而是显存与内存带宽:权重越大,越难塞进显存、越拖慢推理。量化能把一个原本需要多张高端显卡的模型压到单卡、甚至消费级硬件上运行,是「让大模型跑得起、跑得便宜」最直接的手段之一,也是开源模型能在本地广泛部署的前提。
在 AI 产业链中的位置
量化是模型层的技术,却直接作用在芯片与基础设施层:它降低对显存容量与高带宽内存(HBM)的需求,把同样的模型塞进更少、更便宜的硬件。向上,它让应用层能以更低成本、更低延迟提供 AI 功能,并把模型推到端侧设备。