来交作业了，华南金牌X99套装+RTX3090Ti+RTX3060双卡装机完毕

terry

@joker_chang 你3090单卡跑就可以了，没必要分层。24G N卡看下论坛大神们的帖子，上下文能跑满，研究下turboquant MTP即可。

暧昧光影

我也是3090ti+3060，目前只能周末折腾目前只能单卡3090ti跑27B+80K上下文，还没空装Ubuntu，期待你的表现

terry

@暧昧光影你抄下置顶的帖子，虽然是A卡，但是用到的技术N卡跑起来更简单。可以跑更长上下文，然后prefill和docode都有速度明显提升。

暧昧光影

@terry 老特你的视频我最近都没空看了，今天又收了一套48*2的内存，空了直接把部署到位。最近也在看什么场景能够变现

joker_chang

@九门奇人我之前在老机器上跑过（64G物理内存，3060 12G显存，windows10），llama.cpp加载Qwen3.6-35B-A3B-UD-Q4_K_M.gguf，8tokens/s；Qwen3.6-27B-Q4_K_M.gguf只有零点几token/s

applejuice

我因为nvlink 整个预算超了
整体弄到来包裹邮寄都2万了...
心滴血
希望拿到机器可以回点血

joker_chang

@暧昧光影 windows10下llama.cpp是编译好了，但是今天的结果很不理想。不管是单3090还是3090+3060，都只能跑到个位数tokens/s

效果还不如前几天用LM Studio加载unsloth非MTP的版本

applejuice

@joker_chang 说:

@暧昧光影 windows10下llama.cpp是编译好了，但是今天的结果很不理想。不管是单3090还是3090+3060，都只能跑到个位数tokens/s

效果还不如前几天用LM Studio加载unsloth非MTP的版本

试试vllm

Ray Wang

@joker_chang https://github.com/noonghunna/club-3090

照这个抄作业，不过前提是装linux，3090用llama.cpp方案，最低也能跑到20 tokens/s。用vllm方案可以跑到50+。

玩大模型还是别用windows了

joker_chang

@Ray-Wang 谢谢您的回复，我先折腾几天，不行就重装Ubuntu系统

sirwang

换成linux吧。

joker_chang

折腾了几天，踩了无数坑：
1、windows10的电源一定要用卓越性能，不然GPU的频率根本跑不起来，会被限制到180w左右
2、cmake编译llama.cpp不要抄作业（反正我本人没搞定，自己编译的能跑但是最多不到10tokens/s），直接用官方https://github.com/ggml-org/llama.cpp/releases的版本，3090下Windows x64 (CUDA 12)
3、官方编译的版本能Qwen3.6 27B跑到35tokens/s，不过MTP没什么效果，我跑unsloth的MTP版本Qwen3.6 27B，也就只能跑到37tokens/s

joker_chang

@sirwang 等明天装好双卡（物理上3060没插），双卡测试一下，再折腾linux

joker_chang

这是我自己编译的llama.cpp

同样的模型，同样的硬件，同样的启动脚本，差别简直了......

这是https://github.com/ggml-org/llama.cpp/releases/download/b9305/llama-b9305-bin-win-cuda-12.4-x64.zip的

哎~

johnnybegood

@joker_chang 你MTP没设置好，你看看我的帖子

rock shi

@joker_chang 3090跑qwen27b，mtp理论上应该55-60t/s。
你可以丢给AI让他帮你改一下启动代码。

ezios

prefill速度多少

joker_chang

@ezios
1172.52.843.679 I slot print_timing: id 0 | task 23268 | prompt eval time = 2163.02 ms / 1254 tokens ( 1.72 ms per token, 579.74 tokens per second)

这直接显示了prompt eval的速度。所以prefill速度是处理1254个token用了2163.02 ms，即1.72毫秒每token，或579.74 tokens/s。

joker_chang

@rock-shi

@rock-shi 经过论坛大神的指点（--ubatch-size 1024），和自己不断的折腾，能达到这个值了。

启动参数：
--host 0.0.0.0 ^
--port 3527 ^
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 131072 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--spec-type draft-mtp,ngram-mod ^
--spec-draft-n-max 3 ^
--spec-ngram-mod-n-max 5 ^
--spec-ngram-mod-n-min 3 ^
--temp 0.7 ^
--parallel 1

joker_chang

将启动脚本和运行日志丢给云端大模型（Qwen3.7-Max）分析，被告知：

一、“日志显示 ngram-mod 的接受率为 0（#acc drafts = 0, #acc tokens = 0），但它仍占用了 16MB 显存和每次推理的检查开销。”

移除：
【
ngram-mod ^
--spec-ngram-mod-n-max 5 ^
--spec-ngram-mod-n-min 3
】

二、启用 --kv-unified 以激活 idle slots 缓存
日志警告：【W srv init: --cache-idle-slots requires --kv-unified, disabling】

三、增大 Host Prompt Cache 上限
当前仅 8192 MiB（默认值），对于 coding 场景（大量重复系统提示词/代码库前缀）过于保守。

因此增加相关参数：【
--cache-ram 32768 ^
--kv-unified
】

修订启动参数：
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 131072 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--spec-type draft-mtp ^
--spec-draft-n-max 3 ^
--temp 0.7 ^
--parallel 1 ^
--cache-ram 32768 ^
--kv-unified

感觉修改后，效果并不明显（没有提高也没有下降，正负值在1%上下）......

抡锤者

来交作业了，华南金牌X99套装+RTX3090Ti+RTX3060双卡装机完毕