请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?
-
其实这些都有图的,要去hg上面多找找,有质量对比图,和各种指标啥的,PPL什么 的
-
@rich-king 你说这个,其实我也想过,我觉得那种可以 划分显存的企业级,比如PRO 6000D 84G才有意义,魔改的4090没啥用,单4090 48G,我觉得和双4090 各24G原版 差很远,当然,价格也差不少,但是我的想法是这样的,这种贵重显卡,老黄已经刀法精准了, 算力和显存都是匹配的。 贸然翻倍 没意义,为什么?因为 它的带宽1T还是多少。 我们搞AI来推理,说白了就 是每个TOKEN 计算的时候都疯狂把内部的显存遍历一遍。 4090的算力就 那样,但是突然给它个大模型,要遍历的时间 翻倍,TOKEN生成 时间 也就 翻了倍。 不过如果你需要把2-3个模型同时常驻在显存里面,这种显卡就 有用了。
-
@rich-king 你说这个,其实我也想过,我觉得那种可以 划分显存的企业级,比如PRO 6000D 84G才有意义,魔改的4090没啥用,单4090 48G,我觉得和双4090 各24G原版 差很远,当然,价格也差不少,但是我的想法是这样的,这种贵重显卡,老黄已经刀法精准了, 算力和显存都是匹配的。 贸然翻倍 没意义,为什么?因为 它的带宽1T还是多少。 我们搞AI来推理,说白了就 是每个TOKEN 计算的时候都疯狂把内部的显存遍历一遍。 4090的算力就 那样,但是突然给它个大模型,要遍历的时间 翻倍,TOKEN生成 时间 也就 翻了倍。 不过如果你需要把2-3个模型同时常驻在显存里面,这种显卡就 有用了。
Jame-Huang 说:
@rich-king 你说这个,其实我也想过,我觉得那种可以 划分显存的企业级,比如PRO 6000D 84G才有意义,魔改的4090没啥用,单4090 48G,我觉得和双4090 各24G原版 差很远,当然,价格也差不少,但是我的想法是这样的,这种贵重显卡,老黄已经刀法精准了, 算力和显存都是匹配的。 贸然翻倍 没意义,为什么?因为 它的带宽1T还是多少。 我们搞AI来推理,说白了就 是每个TOKEN 计算的时候都疯狂把内部的显存遍历一遍。 4090的算力就 那样,但是突然给它个大模型,要遍历的时间 翻倍,TOKEN生成 时间 也就 翻了倍。 不过如果你需要把2-3个模型同时常驻在显存里面,这种显卡就 有用了。
感谢回复,我主要想开大点的上下文,用来写文章,量化KV虽然能增大上下文,但带来的质量下降问题也不小,我宁愿慢点,也不想质量有下降,所以turboquant q3会比k8_0下降多少呢?问题好多啊,精力不够了……
-
取决于你的用途.
如果是写文章, 创意, 不在意严谨的细节, 区别不大.
如果用来跑长链推理, 比如写代码改 bug, 法律逻辑推理, 会计等场景, 区别还是很明显的. q4 量化以后, 模型在这些场景下会难以抓住细节, 逻辑推理可能产生明显漏洞. 这些场景最好用 q8 或者 fp8.看这篇文章, 里面对长链推理有实测数据
https://willitrunai.com/blog/quantization-q4-q8-fp16-explained
假设原始训练精度 fp16 是无损:- Q8_0 量化后, 统计上与FP16无差别, 困惑度~+0.85%
- Q6_K 量化, 近乎无损, 困惑度~+2.23%
- Q5_K_M 量化, 低损失, 困惑度~+3.53%
- Q4_K_M 量化, 中等损失, 困惑度~+5.35%
其实从数学上你就可以明显感知,
q8 指的是 8 位整数, 一共有 2⁸ = 256 档, 所以Q8量化,就是把原始精度 fp16(65536) 映射到 256 档中某一个.
而 q4 是 2⁴ = 16 种, Q4 量化只能把原始精度 fp16(65536)映射到 16 档中的某一个. 所以会丢失大量细节.这就是为什么搞文章创作, 适合用大参数量 moe 模型配合 q4 量化, 因为搞创意不太在意严谨细节, 有点偏差无所谓, 说不定还能涌现新的点子.
但是但凡要精确+严谨, 那么至少 q6 整数量化, 最好 fp8 浮点量化.
比较新的显卡对 fp8 有专门加速, 显著缩短 prefill 时间, 就是首 token 延迟. -
取决于你的用途.
如果是写文章, 创意, 不在意严谨的细节, 区别不大.
如果用来跑长链推理, 比如写代码改 bug, 法律逻辑推理, 会计等场景, 区别还是很明显的. q4 量化以后, 模型在这些场景下会难以抓住细节, 逻辑推理可能产生明显漏洞. 这些场景最好用 q8 或者 fp8.看这篇文章, 里面对长链推理有实测数据
https://willitrunai.com/blog/quantization-q4-q8-fp16-explained
假设原始训练精度 fp16 是无损:- Q8_0 量化后, 统计上与FP16无差别, 困惑度~+0.85%
- Q6_K 量化, 近乎无损, 困惑度~+2.23%
- Q5_K_M 量化, 低损失, 困惑度~+3.53%
- Q4_K_M 量化, 中等损失, 困惑度~+5.35%
其实从数学上你就可以明显感知,
q8 指的是 8 位整数, 一共有 2⁸ = 256 档, 所以Q8量化,就是把原始精度 fp16(65536) 映射到 256 档中某一个.
而 q4 是 2⁴ = 16 种, Q4 量化只能把原始精度 fp16(65536)映射到 16 档中的某一个. 所以会丢失大量细节.这就是为什么搞文章创作, 适合用大参数量 moe 模型配合 q4 量化, 因为搞创意不太在意严谨细节, 有点偏差无所谓, 说不定还能涌现新的点子.
但是但凡要精确+严谨, 那么至少 q6 整数量化, 最好 fp8 浮点量化.
比较新的显卡对 fp8 有专门加速, 显著缩短 prefill 时间, 就是首 token 延迟.取决于你的用途.
如果是写文章, 创意, 不在意严谨的细节, 区别不大.
如果用来跑长链推理, 比如写代码改 bug, 法律逻辑推理, 会计等场景, 区别还是很明显的. q4 量化以后, 模型在这些场景下会难以抓住细节, 逻辑推理可能产生明显漏洞. 这些场景最好用 q8 或者 fp8.看这篇文章, 里面对长链推理有实测数据
https://willitrunai.com/blog/quantization-q4-q8-fp16-explained
假设原始训练精度 fp16 是无损:- Q8_0 量化后, 统计上与FP16无差别, 困惑度~+0.85%
- Q6_K 量化, 近乎无损, 困惑度~+2.23%
- Q5_K_M 量化, 低损失, 困惑度~+3.53%
- Q4_K_M 量化, 中等损失, 困惑度~+5.35%
其实从数学上你就可以明显感知,
q8 指的是 8 位整数, 一共有 2⁸ = 256 档, 所以Q8量化,就是把原始精度 fp16(65536) 映射到 256 档中某一个.
而 q4 是 2⁴ = 16 种, Q4 量化只能把原始精度 fp16(65536)映射到 16 档中的某一个. 所以会丢失大量细节.这就是为什么搞文章创作, 适合用大参数量 moe 模型配合 q4 量化, 因为搞创意不太在意严谨细节, 有点偏差无所谓, 说不定还能涌现新的点子.
但是但凡要精确+严谨, 那么至少 q6 整数量化, 最好 fp8 浮点量化.
比较新的显卡对 fp8 有专门加速, 显著缩短 prefill 时间, 就是首 token 延迟.受益匪浅,感谢!我的应用场景对AI的推理准确度、上下文获取精度有一定要求,所以准备入手大显存装备了,最后还得靠钞能力,哈哈……
有数了,听说会有96G版本的4090,这个比pro6000会不会更有性价比,嘿嘿…