洋垃圾的回乡路 —— 2x3090 + X99 + 2x2680v4

applejuice

@Ray-Wang 说:

@applejuice 话说你跑大模型大概能到多少TPS呢，我看你之前的作业，只有烤机，没有写跑分

VLLM, 上面那张限制230w，下面那张限制240w

vLLM 启动参数 (docker-compose.yml)

--model /models/heretic-gptq-int4
--served-model-name qwen3.6-27b-heretic
--quantization gptq_marlin
--dtype float16
--tensor-parallel-size 2
--max-model-len 262144
--gpu-memory-utilization 0.9        # via ~/vllm/.env: GPU_MEM_UTIL=0.9  - 之前设置0.932 但是用下来显存到了23.4x, 所以我把它降下来
--max-num-seqs 2
--max-num-batched-tokens 8192
--kv-cache-dtype fp8_e5m2
--trust-remote-code
--reasoning-parser qwen3
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--enable-prefix-caching
--enable-chunked-prefill
--disable-custom-all-reduce         
--host 0.0.0.0
--port 8000

测试结果 NVLINK

测试项目	数值
首响应时间 TTFT（短 prompt，冷启动）	163 ms
总响应时间（10 tokens）	293 ms
Prefill 1K	1,991 tok/s
Prefill 4K	2,036 tok/s
Prefill 16K	1,985 tok/s
Decode（单流）	69.3 tok/s
50K prompt 冷启动 TTFT	25.06 秒
50K prompt 缓存命中 TTFT	0.69 秒
缓存加速比	36.5×

没有NVLINK

Prefill 4K 重复测量 (5 次)

run	prompt_tokens	ttft	tok/s
1	3 836	2 776 ms	1 382
2	3 836	2 735 ms	1 403
3	3 834	2 665 ms	1 439
4	3 833	2 770 ms	1 384
5	3 838	2 772 ms	1 384

mean=1 398, median=1 384, min=1 382, max=1 439. σ ≈ 22 tok/s (1.6% 变化) — 极稳，退化是稳态而非瞬态。

Decode 单流重复测量 (4 次)

run	prompt_tokens	completion_tokens	ttft	decode tok/s
1	76	220	256 ms	66.2
2	79	220	278 ms	66.6
3	81	220	284 ms	66.7
4	80	220	284 ms	66.7

kos or

謝謝樓主分享, 我的配置跟你很像目前正在備貨,
請問這PCIe x 16 Riser adapter 長度是多少cm ?
我在考慮要買 15, 20, or 25 cm 哪種規格

Ray Wang

@kos-or 我买的25cm的，一言难尽，放到最边上有点短会有点扯，放到中间又很长有点折，但好歹没什么大问题，建议你架子到手了以后，把gpu排好了，自己测量一下再买线。

Ray Wang

@applejuice 好像跟我这code成绩差不多，但你功耗低很多，明天我跑一下试试

kos or

@Ray-Wang 感謝建議！我等礦機架到了再實際量測購買Riser
我有其他礦機架小型的大約6~8 GPU-sized 你的屬於挑高型我剛實際量測加上照片目測你的顯卡支撐條大概挑高了約10cm , 這樣的設計對於你主板CPU上的大型Heatsinnk 是有利的

kos or

我們用這種Open Rack 熱氣肯定有的 (夏天快到了更受不了) ,
除了Power Limit之外 , 就是用電風扇和窗型排風扇產生空氣流通

kos or

我想幫Open Rack 設計一個機殼製造空氣流通airflow 也能保護設備避免灰塵累積

AGI

折腾硬件很是麻烦。两年前买的Dell T5810，没有买华南散件，因为dell的质量的确很牛，二是因为放到家里当homelab的，不需要显卡。没想到两年后，显卡和电源成了制约因素。所以前几天买了蓝宝石7900xtx和1000w电源套装，电源专供显卡供电，还需要买一个同步启动器，拼多多10块钱，只能这样凑合着，想入第二块7900xtx，还放不下了，不想外置。
机箱盖子无法正常盖好，也挺好，llm满载的时候，把盖子挪走，温度降低10度...

applejuice

@Ray-Wang 说:

@applejuice 好像跟我这code成绩差不多，但你功耗低很多，明天我跑一下试试

测了3090 300w 跟250w 只差5-10%
230w 跟 250w 好像也只有5%的样子

所以限制230w-250w = 差不多就有90% 的效率

passss

楼主双3090用多大的电源？我1200W跑27b-mtp不限制到300W以下就要重启

applejuice

楼主，你的kmv 有视频输出吗？我的一直显示no signal，我没什么用所以没理他但是始终放在心里

Leon Y

@passss 说:

楼主双3090用多大的电源？我1200W跑27b-mtp不限制到300W以下就要重启

我用的Corsair RM1000X，同时满载300W稳稳的，双3090卡换了新的硅脂和散热贴，温度压在75度左右，就是风扇噪音有点吓人

Ray Wang

@passss 嗯，现实就是，哪怕限制到300w，瞬时峰值还是有可能冲到400w以上。

我之前挖矿7、8台GPU一起跑，而且美国这边是110v家用电，上大瓦数不好上，所以我用的都是多电源模式。现在这个配置是两个850w电源，中间用一个add2psu（下图）同步启动器。2号电源的24针插到这上面，然后接一根molex到1号电源上，就可以做到两台电源同时启动了。

两个电源分别带一个GPU，完全够用。这套东西是经过广大矿工考验的，安全可靠。你有条件的话可以也像我这样再加个电源，我觉得比折腾一个大电源省事一点。

Ray Wang

@applejuice 没有，感觉用不到，我也没有VGA线哈哈。过几天我把IPMI装上就完全满足我需求了。

Ray Wang

@AGI 哎，我这台机器本来也是准备进柜的。但是几年前买这个机柜时候啥也不懂，买的是那种很浅的，只能放点Switch这些小设备...

Ray Wang

@kos-or 我太懒了，主要我有条件扔地下室，所以直接摆了一台风扇在那24小时吹着... 压力测试了一下，E5其实发热不大，然后GPU的话还有专门的机箱120mm风扇吹着，问题也不大。

applejuice

@Leon-Y 说:

@passss 说:

楼主双3090用多大的电源？我1200W跑27b-mtp不限制到300W以下就要重启

我用的Corsair RM1000X，同时满载300W稳稳的，双3090卡换了新的硅脂和散热贴，温度压在75度左右，就是风扇噪音有点吓人

75度真低，我280w 都快80
多几天装机箱前3个风扇希望会帮助

kos or

旁邊好像有一台3D打印機能結合AI設計打印嗎？
我沒用過3D打印機

Ray Wang

@kos-or 我之前看到过有个CAD harness，可以让ai做cad，但是具体还没研究过。我搞CAD不专业，打印机买来给儿子打印玩具的...

passss

@Ray-Wang 谢谢兄弟，我今天让codex监控运行qwen 27b，得到的回答是：当限制到250w,瞬时峰值在378w和345w,如果按超龙和猛禽的最大功率480+450推算两卡总峰值会上1100+，推测用mtp模型显卡同时并发的次数会更多，我也不敢试了，看来限制功率是非常必要的。

抡锤者

洋垃圾的回乡路 —— 2x3090 + X99 + 2x2680v4

vLLM 启动参数 (docker-compose.yml)

测试结果 NVLINK

Prefill 4K 重复测量 (5 次)

Decode 单流 重复测量 (4 次)

vLLM 启动参数 (docker-compose.yml)

测试结果 NVLINK

Prefill 4K 重复测量 (5 次)

Decode 单流 重复测量 (4 次)

Decode 单流重复测量 (4 次)

Decode 单流重复测量 (4 次)