抡锤者

rich king

我感觉vllm对mtp的支持始终有问题，打开mtp会造成tool调用出错、loop、边界识别错误等问题，num_speculative_tokens降低到1凑合着能用，彻底关闭mtp就好不少，但是速度又太慢。
我让codex给vllm0.24.0打了几个还没merge的pr，似乎好点了。
哦，对了，jinja chat template模板也有影响，llama.cpp似乎在脚本方面比较稳定，但是存在prompt fill巨慢的问题，总之，各种mtp、dflash加速确实很快，很爽，但是真要用起来，还需要很多调教。

rich king

一堆bug，回车无法发送、缩放记不住、界面滚动异常等等，修的倒是挺快，hermes这帮人做UI的水平实在不敢恭维，tui也做的很烂，经常渲染的掉牙漏口，体验实在很一般，到现在我也没搞明白desktop远程连接到底怎么设置……不懂编程，但一看到nodejs搞得桌面，就头大的很，被asus的奥创搞怕了，惧怕一切基于nodejs的桌面app

rich king

@michael-gong 说:

取决于你的用途.

如果是写文章, 创意, 不在意严谨的细节, 区别不大.
如果用来跑长链推理, 比如写代码改 bug, 法律逻辑推理, 会计等场景, 区别还是很明显的. q4 量化以后, 模型在这些场景下会难以抓住细节, 逻辑推理可能产生明显漏洞. 这些场景最好用 q8 或者 fp8.

看这篇文章, 里面对长链推理有实测数据
https://willitrunai.com/blog/quantization-q4-q8-fp16-explained
假设原始训练精度 fp16 是无损:

Q8_0 量化后, 统计上与FP16无差别, 困惑度~+0.85%

Q6_K 量化, 近乎无损, 困惑度~+2.23%

Q5_K_M 量化, 低损失, 困惑度~+3.53%

Q4_K_M 量化, 中等损失, 困惑度~+5.35%

其实从数学上你就可以明显感知,
q8 指的是 8 位整数, 一共有 2⁸ = 256 档, 所以Q8量化,就是把原始精度 fp16(65536) 映射到 256 档中某一个.
而 q4 是 2⁴ = 16 种, Q4 量化只能把原始精度 fp16(65536)映射到 16 档中的某一个. 所以会丢失大量细节.

这就是为什么搞文章创作, 适合用大参数量 moe 模型配合 q4 量化, 因为搞创意不太在意严谨细节, 有点偏差无所谓, 说不定还能涌现新的点子.
但是但凡要精确+严谨, 那么至少 q6 整数量化, 最好 fp8 浮点量化.
比较新的显卡对 fp8 有专门加速, 显著缩短 prefill 时间, 就是首 token 延迟.

受益匪浅，感谢！我的应用场景对AI的推理准确度、上下文获取精度有一定要求，所以准备入手大显存装备了，最后还得靠钞能力，哈哈……

rich king

Jame-Huang 说:

@rich-king 你说这个，其实我也想过，我觉得那种可以划分显存的企业级，比如PRO 6000D 84G才有意义，魔改的4090没啥用，单4090 48G，我觉得和双4090 各24G原版差很远，当然，价格也差不少，但是我的想法是这样的，这种贵重显卡，老黄已经刀法精准了，算力和显存都是匹配的。贸然翻倍没意义，为什么？因为它的带宽1T还是多少。我们搞AI来推理，说白了就是每个TOKEN 计算的时候都疯狂把内部的显存遍历一遍。 4090的算力就那样，但是突然给它个大模型，要遍历的时间翻倍，TOKEN生成时间也就翻了倍。不过如果你需要把2-3个模型同时常驻在显存里面，这种显卡就有用了。

感谢回复，我主要想开大点的上下文，用来写文章，量化KV虽然能增大上下文，但带来的质量下降问题也不小，我宁愿慢点，也不想质量有下降，所以turboquant q3会比k8_0下降多少呢？问题好多啊，精力不够了……

rich king

@terry 说:

微乎其微，3-4%，我今天会发hermes视频，我感觉Q4KM和在线Deepseek V4 Flash差距也不大。有3090如果你是为了大模型，完全不必要升级。

感谢回复有数了，听说会有96G版本的4090，这个比pro6000会不会更有性价比，嘿嘿…

rich king

目前用llama.cpp在4090 24G上跑的qwen3.6 27B q4_k_m，
q8的kv，120k上下文，跑hermes感觉还行，问下大佬，如果入手4090 48G上FP8版本会有明显提升么？如果提高不大，我就在4090 24G上苟着吧，谢谢……

抡锤者

rich king

帖子