(双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s

kop wang

@stakira 恭喜，貌似没有被合并是因为除了Q8量化和Q4量化以外都会报错，但是作为临时方案应该是够用的。

asd2667

抄作业，两张5060TI-16G,稳定在57t/s,缺点上下文不能压缩，Q4的大模型只能跑200K上下文，加上上下文压缩不能正常启动大模型! 。

stakira

@asd2667 赞！倒腾一下 #23225 可以双 q8 或双 q4，但目前性能略有损失。

深圳律师陈扬波

表扬。炫耀作业，不炫耀文具

深圳律师陈扬波

我有张3060m12g,不知道是不是散热问题，功耗卡在40w

blackjack

@stakira 说:

但 prefill 怎么也快不起来。无论 rocm 还是 vulkan，prefill 速度相当不稳定，哪怕是长段 prompt 最多也就 500+ t/s，常常只能跑到 300+ t/s。

这个信息很关键啊，ai了一下：

作为一张拥有 960 GB/s 显存带宽、24GB VRAM 的旗舰级显卡，7900 XTX 跑出 300~500 t/s 的 Prefill（首字延迟/提示词处理）速度绝对是不正常的。正常情况下，在全显存（无内存交叉）时，7900 XTX 处理长文本的 Prefill 应该能飙到 1500~2000+ t/s。相比之下，3060 哪怕带宽只有 360 GB/s，但在 CUDA 生态下其算力核心利用率非常稳定。7900 XTX Prefill 速度慢且极度不稳定的根源，不在于硬件本身，而在于 AMD 软件栈在特定推理框架下的 Kernel（算力核心）调度、内存分配以及算子缺失。

致命伤：FlashAttention 算子没有真正跑起来Prefill 阶段是算力受限（Compute-bound）的，需要极其密集的矩阵乘法。

Nvidia 显卡默认使用极致优化的 FlashAttention（甚至 FlashAttention-3）。
痛点：在 ROCm 或 Vulkan 下，如果框架没有正确调用专门针对 RDNA3（GFX1100）优化的 FlashAttention 算子，系统会自动降级去跑极慢的传统 SDPA（PyTorch 默认注意力）或者非对齐算子。这会导致显卡空有几百 W 功耗，算力利用率却极低。

解决办法（vLLM）：在启动 vLLM 时，检查日志中关于 Attention Backend 的输出。确保其使用的是针对 AMD 优化的后端。可以通过环境变量强制指定：bashexport VLLM_ATTENTION_BACKEND=TRITON_ATTN

或者在最新版本的 vLLM 尝试

export VLLM_USE_FLASH_ATTN=1
请谨慎使用此类代码。
(注：如果使用 Llama.cpp，请确保编译时开启了 GGML_HIPBLAS=ON 或者是最新的开源统一注意力 AITER)。

joker_chang

@stakira 大神，锤哥推荐的X99主板，插双卡，PCIe在BOIS中该如何设置，求指点迷津

vosrock

都是3000块，别折腾双卡了，3090另说，不过也没有4080 32G香

vosrock

都170K上下文了，任务都跑了一个多小时了，还能有50多TOKEN/S，不过这个不是常态，通常这个时候只能到30T/S，PERFILL只能到350左右

stakira

@vosrock 上哪找 3000 人民币的 4080？

vosrock

@stakira 我用的是3080 20G，不就是3000嘛

stakira

@vosrock 不错，显存差点，搞两张

stakira

@joker_chang 这个真不懂，没有玩过 x99

stakira

@joker_chang 搞了张 x99，应该直接插上就可以了。然后在 nvtop 里面检查一下至少有 PCIe Gen 3@ 8x 就行了

joker_chang

@stakira 好的，谢谢您的回复

ezios

我打算2080ti 22g x2走nvlink了；我看有人说第二张卡pciex1就够

stakira

@ezios nvlink 多贵啊，有点浪费了吧。如果用nvlink，数据交换基本走nvlink，有可能第二张不需要pcie速度。一般来讲，x1 是矿卡标配，用pcie跑tp还是不要太慢，每张卡地位是对等的，没有第二张怎样的说法。说是不要太慢，有 gen3 x8 = gen4 x4 也就够了，很多主板还是有的。

ezios

@stakira 我看两三百块钱转换器吧，加上再买一张显卡2k出头就下来了

	Context Window	Prefill (pp)	Generation (tg)
MTP 初始峰值	64k	620 t/s	50 t/s
MTP 32k	64k	482 t/s	36.36 t/s
关闭 MTP 初始峰值	96k	620 t/s	31 t/s
关闭 MTP 20k	96k	605 t/s	29.10 t/s
关闭 MTP 50k	96k	438 t/s	26.59 t/s

	Context Window	Prefill (pp)	Generation (tg)
MTP 初始峰值	64k	620 t/s	50 t/s
MTP 32k	64k	482 t/s	36.36 t/s
关闭 MTP 初始峰值	96k	620 t/s	31 t/s
关闭 MTP 20k	96k	605 t/s	29.10 t/s
关闭 MTP 50k	96k	438 t/s	26.59 t/s

抡锤者

(双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s

测试配置

实测记录

总结

附录

测试配置

实测记录

总结

附录

或者在最新版本的 vLLM 尝试