来交作业了，华南金牌X99套装+RTX3090Ti+RTX3060双卡装机完毕

Xiaote

@九门奇人你说得对，3060在这种配置里确实是短板。不过双卡混合部署的话，有个实用策略：

把3090Ti和3060分开用

RTX 3090Ti (24GB)：主力跑LLM推理（Qwen 3.6 27B Q4能跑满），或者vLLM做服务端
RTX 3060 (12GB)：专门给ComfyUI图生视频用（Flux + LTX 2.3完全够），或者做显示输出，这样3090Ti可以headless全速跑LLM

3060的实际性能参考

ComfyUI：Flux (fp8) 大约 3-4s/步，LTX 2.3 512x512 能跑
LLM推理：12GB显存限制比较大，但跑Qwen 3.6 8B Q4没问题
主要价值是分流——把不同任务分到不同卡上，3090Ti不用频繁切换模型

16x+32x混插的坑
华南金牌X99的PCIe槽位分配要注意：第一条直连CPU的x16给3090Ti，第二条走芯片组的x4给3060就够了。如果插错槽，3060会跑在PCIe 2.0 x1，性能损失巨大。

期待你的跑分！双卡3090Ti+3060这套组合性价比确实不错。

terry

@joker_chang 你3090单卡跑就可以了，没必要分层。24G N卡看下论坛大神们的帖子，上下文能跑满，研究下turboquant MTP即可。

暧昧光影

我也是3090ti+3060，目前只能周末折腾目前只能单卡3090ti跑27B+80K上下文，还没空装Ubuntu，期待你的表现

terry

@暧昧光影你抄下置顶的帖子，虽然是A卡，但是用到的技术N卡跑起来更简单。可以跑更长上下文，然后prefill和docode都有速度明显提升。

暧昧光影

@terry 老特你的视频我最近都没空看了，今天又收了一套48*2的内存，空了直接把部署到位。最近也在看什么场景能够变现

joker_chang

@九门奇人我之前在老机器上跑过（64G物理内存，3060 12G显存，windows10），llama.cpp加载Qwen3.6-35B-A3B-UD-Q4_K_M.gguf，8tokens/s；Qwen3.6-27B-Q4_K_M.gguf只有零点几token/s

applejuice

我因为nvlink 整个预算超了
整体弄到来包裹邮寄都2万了...
心滴血
希望拿到机器可以回点血

joker_chang

@暧昧光影 windows10下llama.cpp是编译好了，但是今天的结果很不理想。不管是单3090还是3090+3060，都只能跑到个位数tokens/s

效果还不如前几天用LM Studio加载unsloth非MTP的版本

applejuice

@joker_chang 说:

@暧昧光影 windows10下llama.cpp是编译好了，但是今天的结果很不理想。不管是单3090还是3090+3060，都只能跑到个位数tokens/s

效果还不如前几天用LM Studio加载unsloth非MTP的版本

试试vllm

Ray Wang

@joker_chang https://github.com/noonghunna/club-3090

照这个抄作业，不过前提是装linux，3090用llama.cpp方案，最低也能跑到20 tokens/s。用vllm方案可以跑到50+。

玩大模型还是别用windows了

joker_chang

@Ray-Wang 谢谢您的回复，我先折腾几天，不行就重装Ubuntu系统

sirwang

换成linux吧。

joker_chang

折腾了几天，踩了无数坑：
1、windows10的电源一定要用卓越性能，不然GPU的频率根本跑不起来，会被限制到180w左右
2、cmake编译llama.cpp不要抄作业（反正我本人没搞定，自己编译的能跑但是最多不到10tokens/s），直接用官方https://github.com/ggml-org/llama.cpp/releases的版本，3090下Windows x64 (CUDA 12)
3、官方编译的版本能Qwen3.6 27B跑到35tokens/s，不过MTP没什么效果，我跑unsloth的MTP版本Qwen3.6 27B，也就只能跑到37tokens/s

joker_chang

@sirwang 等明天装好双卡（物理上3060没插），双卡测试一下，再折腾linux

joker_chang

这是我自己编译的llama.cpp

同样的模型，同样的硬件，同样的启动脚本，差别简直了......

这是https://github.com/ggml-org/llama.cpp/releases/download/b9305/llama-b9305-bin-win-cuda-12.4-x64.zip的

哎~

johnnybegood

@joker_chang 你MTP没设置好，你看看我的帖子

rock shi

@joker_chang 3090跑qwen27b，mtp理论上应该55-60t/s。
你可以丢给AI让他帮你改一下启动代码。

ezios

prefill速度多少

joker_chang

@ezios
1172.52.843.679 I slot print_timing: id 0 | task 23268 | prompt eval time = 2163.02 ms / 1254 tokens ( 1.72 ms per token, 579.74 tokens per second)

这直接显示了prompt eval的速度。所以prefill速度是处理1254个token用了2163.02 ms，即1.72毫秒每token，或579.74 tokens/s。

joker_chang

@rock-shi

@rock-shi 经过论坛大神的指点（--ubatch-size 1024），和自己不断的折腾，能达到这个值了。

启动参数：
--host 0.0.0.0 ^
--port 3527 ^
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 131072 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--spec-type draft-mtp,ngram-mod ^
--spec-draft-n-max 3 ^
--spec-ngram-mod-n-max 5 ^
--spec-ngram-mod-n-min 3 ^
--temp 0.7 ^
--parallel 1

抡锤者

来交作业了，华南金牌X99套装+RTX3090Ti+RTX3060双卡装机完毕