抡锤者

topgun2000

@Li-Brace 好像魔改版的2080ti 22GB没有留NVlink接口，只能用layer split

topgun2000

@abaalei 说:

长文本（Ryzen 9700X 参考） 140-172 tok/s X99 DDR4 是瓶颈

这个大概率是因为PCI-E 5.0 vs PCI-E 3.0，两个显卡做TP，瓶颈是PCI-E，除非有NVlink之类的连接。DDR4再慢也比PCI-E 3.0快很多

5.0 x16 带宽是 3.0 x16的四倍

topgun2000

@kylin_Zaki 我用4090跑Qwen3.6-27B-UD-Q4_K_XL-mtp 参数 --ctx-size 120000 --cache-type-k q8_0 --cache-type-v q8_0 可以运行，显存用大概23.3GB。不过我没有长时间测试，也许显存会最后不够

topgun2000

@Vivid-Vector 用的是DDR5+5070内核，192bit width, 速度上不去的。单显5070用的是DDR7

128GB DDR5要一千多刀吧，还有一千多刀的CX-7 Dual port，成本在那里的，便宜不了太多

topgun2000

@applejuice 了解了，他用的是int4的文字模型，所以TP更快一些

topgun2000

@applejuice 我觉得结果很不错，NVlink通信损失小，TP是算力叠加，所以2x3090在这种情况下tps能接近或者等同单卡4090算力，而且上下文能更多

@Leon-Y 为什么你的数据比 @applejuice 的好很多？

topgun2000

@applejuice 我和你试了几乎完全一样的设置Qwen3.6-27B-UD-Q4_K_XL，不过是单卡4090 24GB，所以上下文只能装120000。MTP开了以后大概能85~90tps，不开大概45tps，vram用了23GB

topgun2000

@applejuice 我还有个技嘉的板子16个内存槽512GB+7K62，跑Qwen3.5-397B-A17B-UD-Q4_K_XL也差不多5TPS，比7443稍微慢点。AI说7K62应该比7443快点，因为是8CCD，7443只有4个CCD。但是实际内存是2666 vs 2933，所以内存速度更重要

topgun2000

@applejuice 对，我跑233GB的MOE大模型Qwen3.5-397B-A17B-UD-Q4_K_XL，CPU+DDR4只能5TPS。12通道DDR5大概能到460 GB/s ~ 614 GB/s，加上新的9005 Epyc，估计能到15TPS。但是DDR5太贵了，我的DDR4是以前买的，现在也涨价三倍了

H12D-16D双路应该用不上，两个CPU管理不同的内存卡槽，垮桥通信是个瓶颈

topgun2000

H12D-8D不是单路版吗？我买了一个配7443，挺不错，是atx，普通pc机箱就能用，做工实在

不过只有8个ddr4内存槽。其他一些华硕技嘉的二手版有16个内存槽，一般都是e-atx大版，需要大机箱或者服务器

装了256GB DDR4，直接用CPU推理，八个通道可以达到200GB/s，肯定比GPU慢，但是可以装大模型测试

抡锤者

topgun2000

帖子