(双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s

kop wang

注，作者提醒，SPLIT_MODE_TENSOR不能开启kv量化，以下内容仅作参考

不错的尝试，可以尝试把kv量化调整到q8，这样24GB显存放下128K的上下文应该不是问题。
--cache-type-k q8_0
--cache-type-v q8_0

q8量化的kv，困惑度上升的不是很多，远低于你从q4_k_m到q4_k_s上升的困惑度。

所以可以试试q4km+kv8比特量化的组合

stakira

@kop-wang 帖子里已经说明了，SPLIT_MODE_TENSOR 目前开不了 kv 量化。

kop wang

@stakira 学习了，之前没发现有这个问题，我已修正帖子

kop wang

@stakira 研究了下，有人就这个问题提交了pr，目前看还没有被处理

https://github.com/ggerganov/llama.cpp/pull/23225

应该对于多卡用户是个好消息

stakira

@kop-wang 感谢提供信息

tommam

你好，并行不是需要主板支持的吗？现在大部分ddr4主板都不能并行X8X8啊，

stakira

@tommam 理论上 Gen4 x4 就相当于 Gen3 x8 了，很多新一点的主板是有的。比如 1 x PCIe 4.0 x16 + 1 x PCIe 3.0 x16，或者 1 x PCIe 5.0 x16 + 1 x PCIe 4.0 x4。不是非得 x8+x8。

随便挑一个华硕TUF GAMING B760M-PLUS D4重炮手，就是 Gen5 x16 + Gen4 x4。

这种配置近期似乎比较流行。但 Gen4 x4 那一路走的是芯片组不是 CPU，可能会有一点影响。

主板支持 PCIe 通道拆分的话可以买线拆分成 Gen5 x8+x8。

stakira

@kop-wang 尝试下来确实有用。按评论所说，回退到 #22616 之前，打上 #23225 补丁，开 MTP 可以开到 128k 上下文了

kop wang

@stakira 恭喜，貌似没有被合并是因为除了Q8量化和Q4量化以外都会报错，但是作为临时方案应该是够用的。

asd2667

抄作业，两张5060TI-16G,稳定在57t/s,缺点上下文不能压缩，Q4的大模型只能跑200K上下文，加上上下文压缩不能正常启动大模型! 。

stakira

@asd2667 赞！倒腾一下 #23225 可以双 q8 或双 q4，但目前性能略有损失。

深圳律师陈扬波

表扬。炫耀作业，不炫耀文具

深圳律师陈扬波

我有张3060m12g,不知道是不是散热问题，功耗卡在40w

blackjack

@stakira 说:

但 prefill 怎么也快不起来。无论 rocm 还是 vulkan，prefill 速度相当不稳定，哪怕是长段 prompt 最多也就 500+ t/s，常常只能跑到 300+ t/s。

这个信息很关键啊，ai了一下：

作为一张拥有 960 GB/s 显存带宽、24GB VRAM 的旗舰级显卡，7900 XTX 跑出 300~500 t/s 的 Prefill（首字延迟/提示词处理）速度绝对是不正常的。正常情况下，在全显存（无内存交叉）时，7900 XTX 处理长文本的 Prefill 应该能飙到 1500~2000+ t/s。相比之下，3060 哪怕带宽只有 360 GB/s，但在 CUDA 生态下其算力核心利用率非常稳定。7900 XTX Prefill 速度慢且极度不稳定的根源，不在于硬件本身，而在于 AMD 软件栈在特定推理框架下的 Kernel（算力核心）调度、内存分配以及算子缺失。

致命伤：FlashAttention 算子没有真正跑起来Prefill 阶段是算力受限（Compute-bound）的，需要极其密集的矩阵乘法。

Nvidia 显卡默认使用极致优化的 FlashAttention（甚至 FlashAttention-3）。
痛点：在 ROCm 或 Vulkan 下，如果框架没有正确调用专门针对 RDNA3（GFX1100）优化的 FlashAttention 算子，系统会自动降级去跑极慢的传统 SDPA（PyTorch 默认注意力）或者非对齐算子。这会导致显卡空有几百 W 功耗，算力利用率却极低。

解决办法（vLLM）：在启动 vLLM 时，检查日志中关于 Attention Backend 的输出。确保其使用的是针对 AMD 优化的后端。可以通过环境变量强制指定：bashexport VLLM_ATTENTION_BACKEND=TRITON_ATTN

或者在最新版本的 vLLM 尝试

export VLLM_USE_FLASH_ATTN=1
请谨慎使用此类代码。
(注：如果使用 Llama.cpp，请确保编译时开启了 GGML_HIPBLAS=ON 或者是最新的开源统一注意力 AITER)。

joker_chang

@stakira 大神，锤哥推荐的X99主板，插双卡，PCIe在BOIS中该如何设置，求指点迷津

vosrock

都是3000块，别折腾双卡了，3090另说，不过也没有4080 32G香

vosrock

都170K上下文了，任务都跑了一个多小时了，还能有50多TOKEN/S，不过这个不是常态，通常这个时候只能到30T/S，PERFILL只能到350左右

stakira

@vosrock 上哪找 3000 人民币的 4080？

vosrock

@stakira 我用的是3080 20G，不就是3000嘛

stakira

@vosrock 不错，显存差点，搞两张

	Context Window	Prefill (pp)	Generation (tg)
MTP 初始峰值	64k	620 t/s	50 t/s
MTP 32k	64k	482 t/s	36.36 t/s
关闭 MTP 初始峰值	96k	620 t/s	31 t/s
关闭 MTP 20k	96k	605 t/s	29.10 t/s
关闭 MTP 50k	96k	438 t/s	26.59 t/s

	Context Window	Prefill (pp)	Generation (tg)
MTP 初始峰值	64k	620 t/s	50 t/s
MTP 32k	64k	482 t/s	36.36 t/s
关闭 MTP 初始峰值	96k	620 t/s	31 t/s
关闭 MTP 20k	96k	605 t/s	29.10 t/s
关闭 MTP 50k	96k	438 t/s	26.59 t/s

抡锤者

(双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s

测试配置

实测记录

总结

附录

测试配置

实测记录

总结

附录

或者在最新版本的 vLLM 尝试