另类16GB+12GB配置
-
本帖适合原本就有 16GB 显卡的朋友低成本尝试。
- 情况是原本有 16GB 显存的 RTX 5070 Ti 和一张 6GB 显存的 RTX 2060。
- 5070 Ti 单卡跑 27b 需要 CPU offload,160k 上下文 LM Studio 只能跑到个位数的生成速度。
- 尝试插上 6GB 2060 后,小心配置 llama.cpp,缩短上下文生成速度可以提升到 20 左右,达到可用程度。
- 后另购入 12GB 的 3060,显存宽裕许多,llama.cpp 生成速度提升到接近 30。
总的来讲单卡大显存还是更合适的选择,3090二手购入价和新5070Ti差不多甚至更低,虽然24GB也没给上下文留下多少,但可以跑到40+生成速度。5070 Ti 实际上算力比 3090 强,但显存不够成为了瓶颈。
具体设置为:
使用的是 llama.cpp Vulkan 版本。CUDA 版本疑似开销较大无法达到同样的上下文长度。LM studio 虽然后端是 llama.cpp,但暴露的可控制参数不够
models.ini
[unsloth/qwen3.6-27b] model = ./unsloth/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_S.gguf mmproj = ./unsloth/Qwen3.6-27B-GGUF/mmproj-F32.gguf no-mmproj-offload = true no-mmap = true mlock = false cache-type-k = q8_0 cache-type-v = q8_0 reasoning = on dev = Vulkan1,Vulkan2 n-gpu-layers = 999 t = 0 split-mode = layer tensor-split = 66,34 kv-unified = true c = 160000 np = 1 ; Thinking mode for precise coding tasks temperature = 0.6 top-k = 20 top-p = 0.95 min-p = 0.0 repeat-penalty = 1.0 presence-penalty = 0.0llama-server.exe \ --models-preset ./models.ini \ --host 0.0.0.0 \ --models-max 1 \ --port 1235dev 参数需要运行 llama-server.exe --list-devices 看一下实际的设备名
另外把 models.ini 里的内容转换成 llama-server 的命令行参数也是等价的edit: 感觉可能发错区了,抱歉
-
本帖适合原本就有 16GB 显卡的朋友低成本尝试。
- 情况是原本有 16GB 显存的 RTX 5070 Ti 和一张 6GB 显存的 RTX 2060。
- 5070 Ti 单卡跑 27b 需要 CPU offload,160k 上下文 LM Studio 只能跑到个位数的生成速度。
- 尝试插上 6GB 2060 后,小心配置 llama.cpp,缩短上下文生成速度可以提升到 20 左右,达到可用程度。
- 后另购入 12GB 的 3060,显存宽裕许多,llama.cpp 生成速度提升到接近 30。
总的来讲单卡大显存还是更合适的选择,3090二手购入价和新5070Ti差不多甚至更低,虽然24GB也没给上下文留下多少,但可以跑到40+生成速度。5070 Ti 实际上算力比 3090 强,但显存不够成为了瓶颈。
具体设置为:
使用的是 llama.cpp Vulkan 版本。CUDA 版本疑似开销较大无法达到同样的上下文长度。LM studio 虽然后端是 llama.cpp,但暴露的可控制参数不够
models.ini
[unsloth/qwen3.6-27b] model = ./unsloth/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_S.gguf mmproj = ./unsloth/Qwen3.6-27B-GGUF/mmproj-F32.gguf no-mmproj-offload = true no-mmap = true mlock = false cache-type-k = q8_0 cache-type-v = q8_0 reasoning = on dev = Vulkan1,Vulkan2 n-gpu-layers = 999 t = 0 split-mode = layer tensor-split = 66,34 kv-unified = true c = 160000 np = 1 ; Thinking mode for precise coding tasks temperature = 0.6 top-k = 20 top-p = 0.95 min-p = 0.0 repeat-penalty = 1.0 presence-penalty = 0.0llama-server.exe \ --models-preset ./models.ini \ --host 0.0.0.0 \ --models-max 1 \ --port 1235dev 参数需要运行 llama-server.exe --list-devices 看一下实际的设备名
另外把 models.ini 里的内容转换成 llama-server 的命令行参数也是等价的edit: 感觉可能发错区了,抱歉
-
我之前搞rtx3060 12g x3 搞不出來,,後來換7900XTX 24G 體驗好多了
-
我之前搞rtx3060 12g x3 搞不出來,,後來換7900XTX 24G 體驗好多了
@CHIA-AN-YANG 换卡是对的,它这5070Ti的算力很强了,被3060拖累了。这卡又贵,效果还不如单卡3090.
。说到分层,你说的对,如果主力卡算力足够,只是显存不够,用一张副卡来offload绝对比降级到CPU内存划算得多,这是个很好的思路。感谢分享,好贴!