取决于你的用途.
如果是写文章, 创意, 不在意严谨的细节, 区别不大.
如果用来跑长链推理, 比如写代码改 bug, 法律逻辑推理, 会计等场景, 区别还是很明显的. q4 量化以后, 模型在这些场景下会难以抓住细节, 逻辑推理可能产生明显漏洞. 这些场景最好用 q8 或者 fp8.看这篇文章, 里面对长链推理有实测数据
https://willitrunai.com/blog/quantization-q4-q8-fp16-explained
假设原始训练精度 fp16 是无损:
- Q8_0 量化后, 统计上与FP16无差别, 困惑度~+0.85%
- Q6_K 量化, 近乎无损, 困惑度~+2.23%
- Q5_K_M 量化, 低损失, 困惑度~+3.53%
- Q4_K_M 量化, 中等损失, 困惑度~+5.35%
其实从数学上你就可以明显感知,
q8 指的是 8 位整数, 一共有 2⁸ = 256 档, 所以Q8量化,就是把原始精度 fp16(65536) 映射到 256 档中某一个.
而 q4 是 2⁴ = 16 种, Q4 量化只能把原始精度 fp16(65536)映射到 16 档中的某一个. 所以会丢失大量细节.这就是为什么搞文章创作, 适合用大参数量 moe 模型配合 q4 量化, 因为搞创意不太在意严谨细节, 有点偏差无所谓, 说不定还能涌现新的点子.
但是但凡要精确+严谨, 那么至少 q6 整数量化, 最好 fp8 浮点量化.
比较新的显卡对 fp8 有专门加速, 显著缩短 prefill 时间, 就是首 token 延迟.
受益匪浅,感谢!我的应用场景对AI的推理准确度、上下文获取精度有一定要求,所以准备入手大显存装备了,最后还得靠钞能力,哈哈……
有数了,听说会有96G版本的4090,这个比pro6000会不会更有性价比,嘿嘿…