您的位置: 首页> AI模型

大模型量化 (Quantization) 全维度解析：从哲学到算力

匿名上传

发布时间:2026-02-19 18:36:01

量化不仅是一种“压缩技术”，更是一场关于计算效率与信息精度的深刻博弈。其核心思想是：用更粗糙但更高效的数值系统，去模拟复杂的智能行为。

一、量化的数学哲学：映射与格点化

量化的本质是将神经网络中连续的浮点数（Floating Point）映射到离散的整数（Integer）空间。

公式核心： $Q = clamp (round (\frac{R}{S} + Z); Q_{m i n}, Q_{m a x}) Q = text{clamp}left(text{round}left(frac{R}{S} + Zright); Q_{min}, Q_{max}right)$ $R_{a p p r o x} = (Q - Z) \times S R_{approx} = (Q - Z) times S$
- $R R$ (Real)：原始浮点值。
- $Q Q$ (Quantized)：量化后的整数。
- $S S$ (Scale)：缩放因子（步长）。
- $Z Z$ (Zero-point)：零点偏移，确保浮点 0 对应整数格点。

获取这两个参数的过程被称为 校准 (Calibration)，它是量化精度的“生死线”。

要算 $S S$ 和 $Z Z$ ，首先要确定原始数据的最小值 ( $α alpha$ ) 和最大值 ( $β beta$ )：

Min-Max (全域法)：直接取 $[min, max] [text{min}, text{max}]$ 。虽然保留了所有信息，但极易受“离群值”（Outliers）干扰，导致中间大部分数值分辨率极低。
Entropy / KL 散度法：寻找一个截断阈值，使得量化前后的信息熵丢失最小（忽略极个别偏离巨大的噪点）。
Percentile (分位数法)：忽略最极端的 0.1% 的点，取 99.9% 处的值作为边界。

一旦确定了 $[α, β] [alpha, beta]$ ，即可根据量化位数（如 $I N T 8 INT8$ 的范围是 $[- 128, 127] [-128, 127]$ ）计算：

$S = \frac{β - α}{Q_{m a x} - Q_{m i n}} S = frac{beta - alpha}{Q_{max} - Q_{min}}$
$Z = round (Q_{m i n} - \frac{α}{S}) Z = text{round}(Q_{min} - frac{alpha}{S})$

真相纠正：量化推理不是“还原成浮点数再算”，而是在整数域直接战斗。

带宽红利 (Bandwidth)：从显存搬运 $I N T 4 INT4$ 数据比 $F P 16 FP16$ 快 4 倍，极大缓解了“内存墙”问题。
算力红利 (Integer Arithmetic)：
- 直接对战：显卡 Tensor Core 直接执行 $I N T 4 \times I N T 4 INT4 times INT4$ 运算。
- 底层优势：整数运算单元电路简单，单周期内的吞吐量远高于浮点单元。
反量化时机：
- 大规模的乘加运算都在整数域（累加器）中完成。
- 延迟还原：只有在这一层计算彻底结束、准备进入下一层前，才进行一次反量化乘法 $R = (Q - Z) \times S R = (Q - Z) times S$ 。

普通的线性映射对智商损耗较大，进阶算法引入了补偿机制：