抡锤者

stakira

注意：以下方法，双 N 卡的，最弱超过 3060 12GB 的，统统都可以尝试。

虽然入手了 7900 xtx，但实测下来感觉算力发挥很不稳定。开 MTP 后 decode 确实可以达到 40-60 t/s，但 prefill 怎么也快不起来。无论 rocm 还是 vulkan，prefill 速度相当不稳定，哪怕是长段 prompt 最多也就 500+ t/s，常常只能跑到 300+ t/s。

一直手痒想试试极限丐版 24GB 双 3060，正好这几天以合理的价格淘到了第二张。话不多说，拆掉 7900 xtx，上机实测。

测试配置

测试平台：i7 4770k + 技嘉 GA-Z87MX-D3H
- 相当古董的平台了，用了十多年。值得注意的是它支持 SLI，两条主 PCIE 插槽同时使用时等效于两条 PCIE 3.0 x8 插槽。较新的主板似乎很少有这种分配，但不少会有一条满速 PCIE 5.0 x16 加一条 PCIE 4.0 x4。总所周知 PCIE 4.0 x4 等效于 PCIE 3.0 x8。所以这个平台跑双卡的 PCIE 条件和较新的主板其实是相同的。
- 显示器插主板用集显
系统：Kubuntu 24.04
CUDA: 13.2
模型：
- unsloth/Qwen3.6-27B-MTP-GGUF
- unsloth/Qwen3.6-27B-GGUF
量化：Qwen3.6-27B-Q4_K_S.gguf
软件：llama.cpp 5/25/2026 master 自行编译 CUDA 版本，官方没有预编译Linux CUDA版本下载
- 前置安装 sudo apt install nvidia-cuda-toolkit
配置（详细配置见帖子最后）：
- tensor parallel -sm tensor -ts 1,1
- -sm tensor 和 -ctk -ctv 没法同时开，也就是无法量化 kv cache，只能开到 64k 上下文。我一般需要开 160k 上下文，这就有点难受了（更新：打上补丁可以开到 128k 上下文）
- --spec-type draft-mtp --spec-draft-n-max 1 这个配置比较稳定，--spec-draft-n-max 2 很容易跑一段时间后因为瞬时显存消耗过大 OOM。

实测记录

2.16.262.271 I slot print_timing: id  0 | task 701 | prompt eval time =    3056.70 ms /  1394 tokens (    2.19 ms per token,   456.05 tokens per second)
2.16.262.276 I slot print_timing: id  0 | task 701 |        eval time =   22538.95 ms /   975 tokens (   23.12 ms per token,    43.26 tokens per second)
2.16.262.277 I slot print_timing: id  0 | task 701 |       total time =   25595.65 ms /  2369 tokens
2.16.262.291 I slot print_timing: id  0 | task 701 |    graphs reused =       1016
2.16.262.292 I slot print_timing: id  0 | task 701 | draft acceptance = 0.77618 (  593 accepted /   764 generated)
2.16.262.310 I statistics        draft-mtp: #calls(b,g,a) =   10   1038   1038, #gen drafts =   1038, #acc drafts =   959, #gen tokens =   2076, #acc tokens =  1792, dur(b,g,a) = 0.018, 8380.839, 3.772 ms
2.16.263.267 I slot      release: id  0 | task 701 | stop processing: n_tokens = 12343, truncated = 0

可以看到，在 12k 的实际上下文长度下，pp 456.05 t/s，tg 43.26 t/s。初始速度甚至高达 pp 600+ t/s，tg 50 t/s。这个速度大大超出了我的预料。虽然没有 7900 xtx 的最大速度快，但速度极其稳定，GPU 占用率长时间稳定 100%，不得不说还是 CUDA 成熟。

另外，关闭 MTP 后 context 可以开到 96k，pp 速度更快，tg 速度下降到 31 t/s，也相当不错了。

	Context Window	Prefill (pp)	Generation (tg)
MTP 初始峰值	64k	620 t/s	50 t/s
MTP 32k	64k	482 t/s	36.36 t/s
关闭 MTP 初始峰值	96k	620 t/s	31 t/s
关闭 MTP 20k	96k	605 t/s	29.10 t/s
关闭 MTP 50k	96k	438 t/s	26.59 t/s

总结

优点

性价比极高，目测闲鱼 3000 以内能够搞定。
CUDA 生态完善，GPU 占用率长时间稳定 100%，编译完成后不用折腾，省心。
3060 身材苗条，有单、双风扇短版，大部分 ATX 和 mATX 主板、机箱都无压力。

缺点

SPLIT_MODE_TENSOR 暂时无法使用 kv cache 量化，导致 24GB 仍稍显不足。但这肯定不是小众需求，简单 q8 也能翻倍到 128k / 192k，未来可期。一旦 kv 量化解决，我就可以把 7900 xtx 淘汰了。

推论

双 16GB、速度稍快的卡，比如 4060Ti、5060Ti，虽然性价比会下降，但效果只会更好。还是那句话，CUDA 发挥稳定，省心。同样是 32GB，比跛脚 AI PRO R9700 肯定快得多，价格还稍低。
更新：外网有人根据本帖配置用双 5060Ti 跑出 pp 700 t/s, tg 65 t/s。

其它

vllm 也有简单尝试，但 vllm 可能是对 VRAM 紧张的场景优化不佳，怎么跑都 OOM。且 vllm 启动太慢了，调试麻烦，不折腾了。

附录

详细配置

    --no-mmproj-offload \
    -dev CUDA0,CUDA1  -sm tensor -ts 1,1 \
    --fit off \
    --host 0.0.0.0 --port "$PORT" \
    -t 0 -ngl 99 -np 1 \
    --kv-unified --flash-attn on --ctx-size 64000 \ # 或 96000
    --spec-type draft-mtp --spec-draft-n-max 1 \ # 或去掉
    -rea on \
    --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 --repeat-penalty 1.0 --presence-penalty 0.0

虽然入手了 7900 xtx，但实测下来感觉算力发挥很不稳定。开 MTP 后 decode 确实可以达到 40-60 t/s，但 prefill 怎么也快不起来。无论 rocm 还是 vulkan，prefill 速度相当不稳定，哪怕是长段 prompt 最多也就 500+ t/s，常常只能跑到 300+ t/s。

一直手痒想试试极限丐版 24GB 双 3060，正好这几天以合理的价格淘到了第二张。话不多说，拆掉 7900 xtx，上机实测。

测试配置

测试平台：i7 4770k + 技嘉 GA-Z87MX-D3H
- 相当古董的平台了，用了十多年。值得注意的是它支持 SLI，两条主 PCIE 插槽同时使用时等效于两条 PCIE 3.0 x8 插槽。较新的主板似乎很少有这种分配，但不少会有一条满速 PCIE 5.0 x16 加一条 PCIE 4.0 x4。总所周知 PCIE 4.0 x4 等效于 PCIE 3.0 x8。所以这个平台跑双卡的 PCIE 条件和较新的主板其实是相同的。
- 显示器插主板用集显
系统：Kubuntu 24.04
CUDA: 13.2
模型：
- unsloth/Qwen3.6-27B-MTP-GGUF
- unsloth/Qwen3.6-27B-GGUF
量化：Qwen3.6-27B-Q4_K_S.gguf
软件：llama.cpp 5/25/2026 master 自行编译 CUDA 版本，官方没有预编译Linux CUDA版本下载
- 前置安装 sudo apt install nvidia-cuda-toolkit
配置（详细配置见帖子最后）：
- tensor parallel -sm tensor -ts 1,1
- -sm tensor 和 -ctk -ctv 没法同时开，也就是无法量化 kv cache，只能开到 64k 上下文。我一般需要开 160k 上下文，这就有点难受了
- --spec-type draft-mtp --spec-draft-n-max 1 这个配置比较稳定，--spec-draft-n-max 2 很容易跑一段时间后因为瞬时显存消耗过大 OOM。

实测记录

2.16.262.271 I slot print_timing: id  0 | task 701 | prompt eval time =    3056.70 ms /  1394 tokens (    2.19 ms per token,   456.05 tokens per second)
2.16.262.276 I slot print_timing: id  0 | task 701 |        eval time =   22538.95 ms /   975 tokens (   23.12 ms per token,    43.26 tokens per second)
2.16.262.277 I slot print_timing: id  0 | task 701 |       total time =   25595.65 ms /  2369 tokens
2.16.262.291 I slot print_timing: id  0 | task 701 |    graphs reused =       1016
2.16.262.292 I slot print_timing: id  0 | task 701 | draft acceptance = 0.77618 (  593 accepted /   764 generated)
2.16.262.310 I statistics        draft-mtp: #calls(b,g,a) =   10   1038   1038, #gen drafts =   1038, #acc drafts =   959, #gen tokens =   2076, #acc tokens =  1792, dur(b,g,a) = 0.018, 8380.839, 3.772 ms
2.16.263.267 I slot      release: id  0 | task 701 | stop processing: n_tokens = 12343, truncated = 0

可以看到，在 12k 的实际上下文长度下，pp 456.05 t/s，tg 43.26 t/s。初始速度甚至高达 pp 600+ t/s，tg 50 t/s。这个速度大大超出了我的预料。虽然没有 7900 xtx 的最大速度快，但速度极其稳定，GPU 占用率长时间稳定 100%，不得不说还是 CUDA 成熟。

另外，关闭 MTP 后 context 可以开到 96k，pp 速度更快，tg 速度下降到 31 t/s，也相当不错了。

	Context Window	Prefill (pp)	Generation (tg)
MTP 初始峰值	64k	620 t/s	50 t/s
MTP 32k	64k	482 t/s	36.36 t/s
关闭 MTP 初始峰值	96k	620 t/s	31 t/s
关闭 MTP 20k	96k	605 t/s	29.10 t/s
关闭 MTP 50k	96k	438 t/s	26.59 t/s

总结

优点

性价比极高，目测闲鱼 3000 以内能够搞定。
CUDA 生态完善，GPU 占用率长时间稳定 100%，编译完成后不用折腾，省心。
3060 身材苗条，有单、双风扇短版，大部分 ATX 和 mATX 主板、机箱都无压力。

缺点

SPLIT_MODE_TENSOR 暂时无法使用 kv cache 量化，导致 24GB 仍稍显不足。但这肯定不是小众需求，简单 q8 也能翻倍到 128k / 192k，未来可期。一旦 kv 量化解决，我就可以把 7900 xtx 淘汰了。更新：经 @kop-wang 提醒，回退到 PR#22616 之前，打上 PR#23225 补丁，开 MTP 可以开到 128k 上下文。

推论

双 16GB、速度稍快的卡，比如 4060Ti、5060Ti，虽然性价比会下降，但效果只会更好。还是那句话，CUDA 发挥稳定，省心。同样是 32GB，比跛脚 AI PRO R9700 肯定快得多，价格还稍低。
更新：外网有人根据本帖配置用双 5060Ti 跑出 pp 700 t/s, tg 65 t/s。
主要是 SPLIT_MODE_TENSOR 立功了。但凡双 N 卡的，最小超过 12 GB 的，统统都可以尝试。

其它

vllm 也有简单尝试，但 vllm 可能是对 VRAM 紧张的场景优化不佳，怎么跑都 OOM。且 vllm 启动太慢了，调试麻烦，不折腾了。

附录

详细配置

    --no-mmproj-offload \
    -dev CUDA0,CUDA1  -sm tensor -ts 1,1 \
    --fit off \
    --host 0.0.0.0 --port "$PORT" \
    -t 0 -ngl 99 -np 1 \
    --kv-unified --flash-attn on --ctx-size 64000 \ # 或 96000
    --spec-type draft-mtp --spec-draft-n-max 1 \ # 或去掉
    -rea on \
    --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 --repeat-penalty 1.0 --presence-penalty 0.0

stakira

hermes 本身的 memory 文件本质就是 system prompt，有需求完全可以手动审查修改。作为长期记忆肯定是太短了，但也不可能多么长。

我给 hermes 接了 self-hosted mem0，到底有没有用我也不是太感觉得出来。现在这些记忆方案基本都是基于事后用模型去提取对话记录中的信息，然后建立某些结构。有些系统能够在对话过程中自动注入的，可能就有用一些。要主动调用的就够呛，至少感觉 qwen3.6-27b 并没这个习惯，或许添加 system prompt 会好一点。mem0 self-hosted 做得很烂，各种编译问题、权限问题，应该只是打着开源名号想卖 cloud api。

现在各种 memory 系统太庞杂了，打算让子弹飞一会儿，以后成熟一点再说。留着 session 记录以后都可以导入的。

stakira

这一套按市价 $1300 + $500 + $200 再加张 5070ti $1000，价钱快赶上5090了，真不如全卖了直接上 5090。

不要瞎脑补了，什么全blackwell分层更平衡。分层的原理是一张一张接力跑，跑的时候别的卡都干等着，卡越多越浪费，更不要说什么 egpu 了。分层解决的是显存不够必须和主内存交换的瓶颈问题。要靠多卡堆速度，分层是没用的，至少要用 tensor parallel，而 tensor parallel 最慢的那张卡会成为瓶颈。

要上 80，靠堆卡很难。说实在，很少看到多卡长上下文能超过 60。或许主板 pcie 没瓶颈的话，双 5080 或者 4090 是可以，甚至双 5070 Ti 也有可能。但基本没见人报过数据，因为愿意花这钱的大部分直接 5090 了，还免去一切折腾烦恼。

stakira

"最繁重的前 24 层"、"中间的 16 层"、"比较轻松的 8 层" 应该没有这种说法，即使每层有区别也是因为特定模型每层使用了不同的设计，并且一般都是隔几层放一个什么层这样设计，跟在前后没关系。
你可以尝试 5060ti 和 5070ti 跑1:1 tensor parallel，很有可能会比分层快
两张卡能塞下没必要放第三张卡，越多越慢

stakira

@David-Zhang 不是这个意思。草稿质量高应该只影响预测命中率，最终准确率还是要看主模型和主模型的kv cache。

stakira

本帖适合原本就有 16GB 显卡的朋友低成本尝试。

情况是原本有 16GB 显存的 RTX 5070 Ti 和一张 6GB 显存的 RTX 2060。
5070 Ti 单卡跑 27b 需要 CPU offload，160k 上下文 LM Studio 只能跑到个位数的生成速度。
尝试插上 6GB 2060 后，小心配置 llama.cpp，缩短上下文生成速度可以提升到 20 左右，达到可用程度。
后另购入 12GB 的 3060，显存宽裕许多，llama.cpp 生成速度提升到接近 30。

总的来讲单卡大显存还是更合适的选择，3090二手购入价和新5070Ti差不多甚至更低，虽然24GB也没给上下文留下多少，但可以跑到40+生成速度。5070 Ti 实际上算力比 3090 强，但显存不够成为了瓶颈。

具体设置为：

使用的是 llama.cpp Vulkan 版本。CUDA 版本疑似开销较大无法达到同样的上下文长度。LM studio 虽然后端是 llama.cpp，但暴露的可控制参数不够

models.ini

[unsloth/qwen3.6-27b]
model = ./unsloth/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_S.gguf
mmproj = ./unsloth/Qwen3.6-27B-GGUF/mmproj-F32.gguf
no-mmproj-offload = true
no-mmap = true
mlock = false
cache-type-k = q8_0
cache-type-v = q8_0
reasoning = on
dev = Vulkan1,Vulkan2
n-gpu-layers = 999
t = 0
split-mode = layer
tensor-split = 66,34
kv-unified = true
c = 160000
np = 1
; Thinking mode for precise coding tasks
temperature = 0.6
top-k = 20
top-p = 0.95
min-p = 0.0
repeat-penalty = 1.0
presence-penalty = 0.0

llama-server.exe \
    --models-preset ./models.ini \
    --host 0.0.0.0 \
    --models-max 1 \
    --port 1235

dev 参数需要运行 llama-server.exe --list-devices 看一下实际的设备名
另外把 models.ini 里的内容转换成 llama-server 的命令行参数也是等价的

edit: 感觉可能发错区了，抱歉

stakira

@joker_chang 搞了张 x99，应该直接插上就可以了。然后在 nvtop 里面检查一下至少有 PCIe Gen 3@ 8x 就行了

stakira

@kop-wang 帖子里已经说明了，SPLIT_MODE_TENSOR 目前开不了 kv 量化。

stakira

人不在国内，直接搞了块二手技嘉 ga-x99-ud4p 加 E5 2690v4，四条间隔2槽的pcie，原生支持4路SLI。DDR4 32GB（感觉其实16GB问题不大）。不需要延长线直插四张 3060，虽然不比双卡快但一共48GB，加起来折合不到8000人民币，还是非常非常香的

抡锤者

stakira

帖子

测试配置

实测记录

总结

附录

测试配置

实测记录

总结

附录