来交作业了，华南金牌X99套装+RTX3090Ti+RTX3060双卡装机完毕

joker_chang

@ezios
1172.52.843.679 I slot print_timing: id 0 | task 23268 | prompt eval time = 2163.02 ms / 1254 tokens ( 1.72 ms per token, 579.74 tokens per second)

这直接显示了prompt eval的速度。所以prefill速度是处理1254个token用了2163.02 ms，即1.72毫秒每token，或579.74 tokens/s。

joker_chang

@rock-shi

@rock-shi 经过论坛大神的指点（--ubatch-size 1024），和自己不断的折腾，能达到这个值了。

启动参数：
--host 0.0.0.0 ^
--port 3527 ^
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 131072 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--spec-type draft-mtp,ngram-mod ^
--spec-draft-n-max 3 ^
--spec-ngram-mod-n-max 5 ^
--spec-ngram-mod-n-min 3 ^
--temp 0.7 ^
--parallel 1

joker_chang

将启动脚本和运行日志丢给云端大模型（Qwen3.7-Max）分析，被告知：

一、“日志显示 ngram-mod 的接受率为 0（#acc drafts = 0, #acc tokens = 0），但它仍占用了 16MB 显存和每次推理的检查开销。”

移除：
【
ngram-mod ^
--spec-ngram-mod-n-max 5 ^
--spec-ngram-mod-n-min 3
】

二、启用 --kv-unified 以激活 idle slots 缓存
日志警告：【W srv init: --cache-idle-slots requires --kv-unified, disabling】

三、增大 Host Prompt Cache 上限
当前仅 8192 MiB（默认值），对于 coding 场景（大量重复系统提示词/代码库前缀）过于保守。

因此增加相关参数：【
--cache-ram 32768 ^
--kv-unified
】

修订启动参数：
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 131072 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--spec-type draft-mtp ^
--spec-draft-n-max 3 ^
--temp 0.7 ^
--parallel 1 ^
--cache-ram 32768 ^
--kv-unified

感觉修改后，效果并不明显（没有提高也没有下降，正负值在1%上下）......

janebo

最近也是纠结，手上也是有一张 3060 12g 卡是直接出掉换7900xtx,还是上买一张3060 12g 来，但是换两张3060 主板要换，我的主板小板只有一张16x PCI槽，折腾成本也高，最近在看3090 24g 基本上差不多六千多，跑ComfyUI是我的需求，模型我直接走供应商还比较方便。

terry

@janebo 肯定是单卡好

抡锤者

来交作业了，华南金牌X99套装+RTX3090Ti+RTX3060双卡装机完毕