洋垃圾的回乡路 —— 2x3090 + X99 + 2x2680v4
-
一样硬件

但是这个东西放在房间不得热死?双路cpu 好像会有延迟?
@applejuice 地下室,随便它怎么叫唤我也听不到,延迟的事情我得研究一下。
-
有地下室真好 我放在房间外面 整个空间都可以感觉热气
-
有地下室真好 我放在房间外面 整个空间都可以感觉热气
@applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分
-
@applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分
@applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分
VLLM, 上面那张限制230w,下面那张限制240w
vLLM 启动参数 (docker-compose.yml)
--model /models/heretic-gptq-int4 --served-model-name qwen3.6-27b-heretic --quantization gptq_marlin --dtype float16 --tensor-parallel-size 2 --max-model-len 262144 --gpu-memory-utilization 0.9 # via ~/vllm/.env: GPU_MEM_UTIL=0.9 - 之前设置0.932 但是用下来显存到了23.4x, 所以我把它降下来 --max-num-seqs 2 --max-num-batched-tokens 8192 --kv-cache-dtype fp8_e5m2 --trust-remote-code --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --enable-prefix-caching --enable-chunked-prefill --disable-custom-all-reduce --host 0.0.0.0 --port 8000测试结果 NVLINK
测试项目 数值 首响应时间 TTFT(短 prompt,冷启动) 163 ms 总响应时间(10 tokens) 293 ms Prefill 1K 1,991 tok/s Prefill 4K 2,036 tok/s Prefill 16K 1,985 tok/s Decode(单流) 69.3 tok/s 50K prompt 冷启动 TTFT 25.06 秒 50K prompt 缓存命中 TTFT 0.69 秒 缓存加速比 36.5× 没有NVLINK
Prefill 4K 重复测量 (5 次)
run prompt_tokens ttft tok/s 1 3 836 2 776 ms 1 382 2 3 836 2 735 ms 1 403 3 3 834 2 665 ms 1 439 4 3 833 2 770 ms 1 384 5 3 838 2 772 ms 1 384 mean=1 398, median=1 384, min=1 382, max=1 439. σ ≈ 22 tok/s (1.6% 变化) — 极稳,退化是稳态而非瞬态。
Decode 单流 重复测量 (4 次)
run prompt_tokens completion_tokens ttft decode tok/s 1 76 220 256 ms 66.2 2 79 220 278 ms 66.6 3 81 220 284 ms 66.7 4 80 220 284 ms 66.7 -
@applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分
VLLM, 上面那张限制230w,下面那张限制240w
vLLM 启动参数 (docker-compose.yml)
--model /models/heretic-gptq-int4 --served-model-name qwen3.6-27b-heretic --quantization gptq_marlin --dtype float16 --tensor-parallel-size 2 --max-model-len 262144 --gpu-memory-utilization 0.9 # via ~/vllm/.env: GPU_MEM_UTIL=0.9 - 之前设置0.932 但是用下来显存到了23.4x, 所以我把它降下来 --max-num-seqs 2 --max-num-batched-tokens 8192 --kv-cache-dtype fp8_e5m2 --trust-remote-code --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --enable-prefix-caching --enable-chunked-prefill --disable-custom-all-reduce --host 0.0.0.0 --port 8000测试结果 NVLINK
测试项目 数值 首响应时间 TTFT(短 prompt,冷启动) 163 ms 总响应时间(10 tokens) 293 ms Prefill 1K 1,991 tok/s Prefill 4K 2,036 tok/s Prefill 16K 1,985 tok/s Decode(单流) 69.3 tok/s 50K prompt 冷启动 TTFT 25.06 秒 50K prompt 缓存命中 TTFT 0.69 秒 缓存加速比 36.5× 没有NVLINK
Prefill 4K 重复测量 (5 次)
run prompt_tokens ttft tok/s 1 3 836 2 776 ms 1 382 2 3 836 2 735 ms 1 403 3 3 834 2 665 ms 1 439 4 3 833 2 770 ms 1 384 5 3 838 2 772 ms 1 384 mean=1 398, median=1 384, min=1 382, max=1 439. σ ≈ 22 tok/s (1.6% 变化) — 极稳,退化是稳态而非瞬态。
Decode 单流 重复测量 (4 次)
run prompt_tokens completion_tokens ttft decode tok/s 1 76 220 256 ms 66.2 2 79 220 278 ms 66.6 3 81 220 284 ms 66.7 4 80 220 284 ms 66.7 @applejuice 好像跟我这code成绩差不多,但你功耗低很多,明天我跑一下试试
-
@applejuice 好像跟我这code成绩差不多,但你功耗低很多,明天我跑一下试试
@applejuice 好像跟我这code成绩差不多,但你功耗低很多,明天我跑一下试试
测了3090 300w 跟250w 只差5-10%
230w 跟 250w 好像也只有5%的样子所以限制230w-250w = 差不多就有90% 的效率
-
K koala 被引用 于这个主题
-
楼主,你的kmv 有视频输出吗? 我的一直显示no signal,我没什么用所以没理他 但是始终放在心里
-
楼主,你的kmv 有视频输出吗? 我的一直显示no signal,我没什么用所以没理他 但是始终放在心里
@applejuice 没有,感觉用不到,我也没有VGA线哈哈。过几天我把IPMI装上就完全满足我需求了。
-
折腾硬件很是麻烦。两年前买的Dell T5810,没有买华南散件,因为dell的质量的确很牛,二是因为放到家里当homelab的,不需要显卡。没想到两年后,显卡和电源成了制约因素。所以前几天买了蓝宝石7900xtx和1000w电源套装,电源专供显卡供电,还需要买一个同步启动器,拼多多10块钱,只能这样凑合着,想入第二块7900xtx,还放不下了,不想外置。
机箱盖子无法正常盖好,也挺好,llm满载的时候,把盖子挪走,温度降低10度...




,安全可靠。你有条件的话可以也像我这样再加个电源,我觉得比折腾一个大电源省事一点。
我太懒了,主要我有条件扔地下室,所以直接摆了一台风扇在那24小时吹着... 压力测试了一下,E5其实发热不大,然后GPU的话还有专门的机箱120mm风扇吹着,问题也不大。