跟huananzi下单了 3090x2 + nvlink

AresROC

applejuice

@AresROC
这个也是我从ai了解到的. 如果没有nvlink 倒不如用r9700 或单卡.
原因是如果kv缓存需要用多过单卡vram 需要经过pcie 就比较慢了.
之前纠结的 r9700 有fp8 可能可以用超过3-5年而且比较适合我

我个人需要长上下文 60k 不够用可能要超过100k
个人用习惯claude
而且现在的agent开局就20-30k context

单卡3090 不考虑 turboquant, f16 kv 可能就只能支持50k
这个情况应该考虑r9700

但是价钱很两张3090+nvlink 整机价钱都只是多过r9700一丢丢

考虑到2张r9700 没用因为pcie3 比较慢（pcie5 整体硬件又贵不少）
2张3090+nvlink 长上下文 prefill 比较快又便宜所以选了3090

只希望可以用上3年如果可以去到4-5年就赚了
ai 也给了一个不知对错的解答：r9700 也不一定能撑4-5年如果概率来说2-3年一张3090坏的成本还低过3年后 r9700 坏的成本，可能ai 没考虑到3090 是矿卡...

以上都是ai 问来的希望大神纠错

terry

@AresROC 你用的Llama.cpp?双卡TP要用VLLM 和SG-Lang，LLama.cpp是分层串行，同时只有一张卡在计算。

terry

@applejuice 用VLLM或者SG-Lang TP，并行，怎么可能比单卡慢。3090有NV-Link是个优势。

applejuice

@terry 说:

@applejuice 用VLLM或者SG-Lang TP，并行，怎么可能比单卡慢。3090有NV-Link是个优势。

我知识有限问不到位
下次我会继续质问他

AresROC

@terry 哎呀，对我傻傻的忘了要用vLLM tensor parallel size 2. SG-Lang还没用过好像不可以用Q4 KV？就是看到 Windows L M Studio 还以为可以试一下。

terry

@AresROC 你跑下SG-Lang吧，我被SG-Lang毒打过，乱码，现在还没折腾，做好了我抄作业。

applejuice

翻车了， x99 huannanzhi 主板两条pcie 的距离即不是nvlink 2slot 的距离也不是3slot 的距离.

Xiaote

@applejuice 翻车现场我懂华南金牌X99的PCIE槽间距确实是个坑——它通常是4槽间距(4slot)，而NVLink桥大部分是2槽或3槽的。

几个思路供参考：

换桥：如果确定间距是4slot，去找"四槽NVLink桥"，某宝有卖（大概50-100元），虽然少但确实有。3090的NVLink桥规格标准一致，只要间距对上就行。
不用桥直接TP：先用vLLM或SGLang的tensor-parallel=2试试，PCIe 3.0 x16双向带宽约16GB/s，跑Qwen 27B这种级别的模型，通信开销其实没那么大。NVLink只是锦上添花，没有也能跑双卡TP。先跑起来再说，桥可以慢慢找。
柔性延长线：如果你手头有PCIE延长线或显卡竖装支架，可以调整一张卡的位置，让两张卡之间留出刚好能插桥的距离。不过走线会丑，但对性能没影响。
最省心方案：先不纠结桥，vLLM TP=2直接上，等以后有合适的桥再补。ai说的"没有nvlink跑agent慢"是理论上的，实际体感差距并不明显——prefill和推理大头还是靠算力，通信占比不大。

先跑起来最重要，船到桥头自然直

Shane

我也是雙卡3090，NVLink太難接了，距離還要對，那個對於推論也沒多少幫助，訓練才有大幫助，不用浪費力氣折騰了

applejuice

@Shane 说:

我也是雙卡3090，NVLink太難接了，距離還要對，那個對於推論也沒多少幫助，訓練才有大幫助，不用浪費力氣折騰了

我折腾了ai 好久 ai是说对prefill 有帮助我才下决心不然选了9700

y2k

其实应该直接买r9700，比你现在方案要好

applejuice

@y2k 说:

其实应该直接买r9700，比你现在方案要好

没事用不爽出掉

Grayson Ren

@applejuice R9700 什么方案单卡还是双卡

applejuice

@Grayson-Ren 我最后选了3090 两张

抡锤者