另类16GB+12GB配置

stakira

本帖适合原本就有 16GB 显卡的朋友低成本尝试。

情况是原本有 16GB 显存的 RTX 5070 Ti 和一张 6GB 显存的 RTX 2060。
5070 Ti 单卡跑 27b 需要 CPU offload，160k 上下文 LM Studio 只能跑到个位数的生成速度。
尝试插上 6GB 2060 后，小心配置 llama.cpp，缩短上下文生成速度可以提升到 20 左右，达到可用程度。
后另购入 12GB 的 3060，显存宽裕许多，llama.cpp 生成速度提升到接近 30。

总的来讲单卡大显存还是更合适的选择，3090二手购入价和新5070Ti差不多甚至更低，虽然24GB也没给上下文留下多少，但可以跑到40+生成速度。5070 Ti 实际上算力比 3090 强，但显存不够成为了瓶颈。

具体设置为：

使用的是 llama.cpp Vulkan 版本。CUDA 版本疑似开销较大无法达到同样的上下文长度。LM studio 虽然后端是 llama.cpp，但暴露的可控制参数不够

models.ini

[unsloth/qwen3.6-27b]
model = ./unsloth/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_S.gguf
mmproj = ./unsloth/Qwen3.6-27B-GGUF/mmproj-F32.gguf
no-mmproj-offload = true
no-mmap = true
mlock = false
cache-type-k = q8_0
cache-type-v = q8_0
reasoning = on
dev = Vulkan1,Vulkan2
n-gpu-layers = 999
t = 0
split-mode = layer
tensor-split = 66,34
kv-unified = true
c = 160000
np = 1
; Thinking mode for precise coding tasks
temperature = 0.6
top-k = 20
top-p = 0.95
min-p = 0.0
repeat-penalty = 1.0
presence-penalty = 0.0

llama-server.exe \
    --models-preset ./models.ini \
    --host 0.0.0.0 \
    --models-max 1 \
    --port 1235

dev 参数需要运行 llama-server.exe --list-devices 看一下实际的设备名
另外把 models.ini 里的内容转换成 llama-server 的命令行参数也是等价的

edit: 感觉可能发错区了，抱歉

terry

@stakira 厉害！我也正想折腾下这个玩意，你做的很有意义啊，兄弟，这为我提供了一个素材，我可以测试下A卡和N卡一起分层跑Vulkan。说到分层，你说的对，如果主力卡算力足够，只是显存不够，用一张副卡来offload绝对比降级到CPU内存划算得多，这是个很好的思路。感谢分享，好贴！

CHIA AN YANG

我之前搞rtx3060 12g x3 搞不出來,,後來換7900XTX 24G 體驗好多了

terry

@CHIA-AN-YANG 换卡是对的，它这5070Ti的算力很强了，被3060拖累了。这卡又贵，效果还不如单卡3090.

tomcatzh

prefill速度呢？如果用来跑agent 30-40K，甚至70k - 100k的prefill都是很常见的

虽然cache命中就无所谓，但总有冷启动的时候

stakira

@tomcatzh 1000上下

抡锤者

另类16GB+12GB配置