山寨X99主板，32G DDR3内存，两张5060TI 16G llama.cpp Qwen3.6 27B NVFP4版 40-70T/S 现在够用未来会更好。

asd2667

#!/bin/bash
export LD_LIBRARY_PATH=/home/qwe/llama.cpp/build/bin:$LD_LIBRARY_PATH

MODEL=/home/qwe/models/Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP.gguf
PORT=8081
LLAMA_SERVER=/home/qwe/llama.cpp/build/bin/llama-server

exec "$LLAMA_SERVER"
--n-predict 16384
--fit off
--split-mode tensor --tensor-split 1,1
--device CUDA0,CUDA1
-m "$MODEL"
--host 0.0.0.0 --port "$PORT"
-t 0 -ngl 99 -np 1
--no-mmap
--kv-unified --flash-attn on --ctx-size 160000
--spec-type draft-mtp --spec-draft-n-max 2
--repeat-penalty 1.1
--min-p 0.02
--temp 0.6 --top-k 20 --top-p 0.95

asd2667

模型的部署用跑在deepseek下的Hermes agent 自动安装部署的，直接把模型网页扔给他，让他学习参考抄作业。

comeN

50系列能用NVFP是厉害啊！表现比双3080-20G还好

terry

非常好的分享，关键参数用文字贴下。

kos or

看到5060 Ti 16GB 性價比就是高～總是要讚一個：）

Gang Cheng

我现在有一张5060ti16g我是想换一张7900xtx好还是再加一张5060ti16g呢？麻烦大神给我指导一下~

CS6

@Gang-Cheng 7900xtx / R9700 VRAM 帶來的改善比較大

Xiaote

@Gang Cheng 我来补充一下两个方案的具体对比，帮你做决定：

方案A：再加一张5060Ti 16G（双卡）
优势：

总显存32GB，比7900XTX多8GB，跑大模型更从容
Blackwell架构的NVFP4是杀手锏——Qwen3.6 27B用NVFP4量化只需要约17GB，一张卡就能跑，双卡甚至可以跑更大的模型
llama.cpp双卡tensor parallelism效率很高，实测双5060Ti跑27B能有40-70T/s
成本低：再买一张5060Ti约2500-3000元

劣势：

双卡需要主板有两条PCIe x16槽，电源要够
ComfyUI等生图场景分卡有额外开销

方案B：换7900XTX 24G
优势：

单卡24GB，ROCm生态对vLLM/SGLang支持好
生图/视频场景（ComfyUI）单卡不需要分卡，更省心
单卡推理吞吐比单张5060Ti高
保修还有2年

劣势：

总显存反而比双5060Ti少8GB
不支持NVFP4量化
卖卡+买卡差价大，综合成本更高

我的建议： 如果你主要跑llama.cpp纯推理，加一张5060Ti双卡是更优解——32GB总显存+NVFP4，性价比很高。如果你未来主要跑ComfyUI生图/视频，那7900XTX的24G单卡更省心。两个都要兼顾的话，建议先加5060Ti双卡试试，32GB显存是想换也换不来的硬优势。

yzl8850622

华南x99 f8hplus主板，双显卡一插上就启动不了，Above 4G Decoding：Enabled也已打开。大神有没有好的方法，已经试错了两天了，想吐了。

applejuice

Prefill 速度？

刚刚问ai prefill 大概有1000t/s 也不错
主要是价钱便宜

terry

测试数据非常有参考意义，置顶，有prefill速度可以发下，但影响不是很大。

抡锤者

山寨X99主板，32G DDR3内存，两张5060TI 16G llama.cpp Qwen3.6 27B NVFP4版 40-70T/S 现在够用未来会更好。