抡锤者

coin1860

测试一下prefill ， MTP 开启还有多少上下文？

这卡估计要等到trubo quant 和MTP 同时能开并且不影响prefill 的情况才算是神卡。现在太尴尬，只能用pi 写写代码。

coin1860

tp 必须要pcie4 x8 , pcie3 tp prefill 速度会慢过单卡pp

coin1860

这么说实际两张魔改3080 20g 配合pcie4 x8分拆的主板性价比更高，就是ddr4的内存现在这个价位比较蛋疼

coin1860

dflash 不错， pflash 要关注一下，我让gemini 搜索作者承认pflash 不是无损的。作为agent 我觉得无所谓，但是编程就有点伤。还是等你们测试实际的效果。

coin1860

我现在用6800xt 推理IQ3_XSS 的模型，开mpt2 kv设置q4_0 可以很勉强的运行128k 上下文。这时候显存99

速度在64k上下文prefill 200, TG 28~38。这个速度用opencode 做一些简单的代码开发已经可以满足的。但是对amd的prefill 速度很不满意。使用hermes 进场读一个tools的反馈需要30秒。

我差了一些资料3090 在128k 上下文pp 也能做到1000+，而7900xtx 只有400~500的pp，那面对超长上下文的prompt process 速度可以忍受么？如果重度agent 是不是3090 是唯一解？

现在使用7900xtx 推理qwen 3.6 27b的同学，你们的prefill 速度满意么？

/data/dev/llama-mtp-stable/build/bin/llama-server -m "/data/llm/models/Qwen3.6-27B-UD-IQ3_XXS.gguf" -ngl 99 -c 128192 -fa on -np 1 --spec-type draft-mtp --spec-draft-n-max 2 --host 0.0.0.0 --cache-type-k q4_0 --cache-type-v q4_0 --logit-bias 151649-inf,151650-inf --parallel 1 --spec-draft-p-min 0.75 --reasoning-budget 512

抡锤者

coin1860

帖子