分享：4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据

Fred

我的装备看这个帖子：
https://lcz.me/topic/117/小小秀一下我的ai-rig/12

这个帖子主要是分享一下用这套装备能怎么跑大模型（LLM），有哪些组合，能大概跑出来什么样的效果等等。

GPU

RTX 4090 48G （独立显卡）
AMD Radeon AI PRO R9700 32G （独立显卡）
AMD Radeon 8060S Graphics 128G（AI MAX 395的集成显卡）

各自的特点：

AI Max 395：价格14000RMB左右，集成显卡代号8060S，共享内存128G，内存最大，能通吃许多大模型，但算力最低，内存带宽260G左右，也是最低，所以跑大模型的速度最慢；
4090 48G：价格30000RMB左右，最贵，最快，显存带宽1TB左右，生态最好，vLLM可以跑得飞起，但48G显存吃不下超大模型，但跑27B模型或者30B模型，可以把上下文放256K，非常爽；
R9700 32G：价格11000RMB左右，32G显存，速度尚可，性价比高，但算力和显存带宽（660G左右），都不如4090，因此速度介于8060S集成显卡和4090之间，能跑27B模型，选择Q4量化模型，上下文也能到256K。

玩法

分3类：

小模型单卡玩法，这就不说了，就是用一个卡跑一个模型；
中等模型分2卡玩法，例如Qwen3.5-122B模型，本来可以直接跑在AI MAX 395的集成显卡上，但我嫌他性能太差，然而4090和R9700两个卡，任何一个的显存又不够单跑这个模型，但2个卡加起来80G的VRAM就够了，因此可以将它用llama.cpp的-ts参数，分层到2块卡上跑，效果惊人地快；
超大模型分卡分3卡玩法，例如MiniMax M2.7这种，下载下来哪怕是Q4的量化版本，都有120多GB，连AI MAX 395的128GB都放不下（需要留内存给系统和kv cache），这种情况，可以把同一个模型分成3部分，让4090承担大头，AI MAX395承担中头，R9700承担小头。这样的性能会被AI MAX 395的集成显卡拖后腿，但是能跑，而且如果不用长上下文的Agent，仅用来聊天（利用超大知识库），性能也可以接受（吐字不慢）。

后面我就把这几种方法跑出来的效果给大家汇报一下。

测试工具

llama-benchy：我用这个工具，它是通过openai的兼容api端点做压测，可以对任何推理引擎做压测（我是vLLM和llama.cpp），它能反映最终用户（例如Hermes Agent）能真正感受到的速度。
GitHub - eugr/llama-benchy: llama-benchy - llama-bench style benchmarking tool for all backends

压测结果

模型	参数量	量化方式	权重大小	推理框架	GPU	PROMPT PREFILL (pp8192)	TOKEN GENERATION (tg512)
MiniMax2.7	230B-A10B	UD-IQ4_XS	102GB	llama.cpp (-ts)	4090+R9700+8060S	781.68	27.74
Qwen3.5-122B-A10B	122B-A10B	UD-Q4_K_XL	73GB	llama.cpp	8060S	352.36	20.96
Qwen3.5-122B-A10B	122B-A10B	UD-Q4_K_XL	73GB	llama.cpp (-ts)	4090+R9700	2234.51	53.63
Qwen3.6-35B-A3B	35B-A3B	Q5_K_XL	25G	llama.cpp	4090	7978.24	162.10
Qwen3.6-35B-A3B	35B-A3B	Q5_K_XL	25G	llama.cpp	R9700	2880.76	79.05
Qwen3.6-35B-A3B	35B-A3B	Q5_K_XL	25G	llama.cpp	8060S	946.44	50.77
Qwen3.6-27B	27B	AWQ-6Bit	26GB	vLLM	4090	2557.59	115.47 (with MTP)
Qwen3.6-27B	27B	UD-Q6_K_XL	25GB	llama.cpp	4090	2402.65	33.88
Qwen3.6-27B	27B	UD-Q4_K_XL	17GB	llama.cpp	R9700	914.31	26.56
Qwen3.6-27B	27B	UD-Q4_K_XL	17GB	llama.cpp	8060S	281.44	11.83

结论

这个结果其实就和特哥常常讲的一样，有多少钱卖多少钱的设备：买贵的吃不了亏，买便宜的占不了太多便宜。
以Qwen3.6-27B为例：

跑在AI MAX 395的8086S上，PP才281个，吐字才11个，这个机器14000RMB，你买到了128G的大显存，还得到了一台不错的windows/linux主机，但是速度没法和独立显卡相比；
跑在R9700上，PP一下子914个，吐字有26个每秒，这才是可用的速度，但代价是11000RMB；
跑在4090上，这生态上的优势马上就出来了，用vLLM打开成熟的MTP支持，多请求PP一下子2557个，吐字115个（不要去折腾A卡的vLLM了，我尝试过，Qwen3.6支持度不行，上下文有限，单请求速度不如llama.cpp），即使跑在llama.cpp上，PP速度也能到2402，只是吐字速度稍慢，才33个（受限与1TB显存带宽以及没有成熟的MTP）。这个卡30000RMB左右，比R9700贵了2倍左右，但你得到的效果也是2倍。

所以最后还是看自己，显卡这个市场现在基本上是一分钱一分货（除非被骗），不要纠结。自己想干啥，就买啥。

备注！AI MAX 395现在要重新评价它了，现在涨价到21000左右了，性价比已经比14000的时候低很多了！

David Zhang

作业牛逼，可以置顶！

terry

@Fred 我草，这绝对精华帖子，我要做一个单独视频，给老弟署名。你给弄几张截图啊，最好是黑乎乎的背景，显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接，让大家来膜拜下你。

Fred

@terry 说:

@Fred 我草，这绝对精华帖子，我要做一个单独视频，给老弟署名。你给弄几张截图啊，最好是黑乎乎的背景，显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接，让大家来膜拜下你。

哈哈不用单做视频特哥。我经常看你油管，学到很多东西，想着回报一下你。我的资料你随便用在视频里面。我是属于那种闲散玩法，比较佛系，有时间就来吹吹牛逼，分享点内容。不过我这个配置是有误导性的：不推荐显卡坞，有条件一定是尽量PCIE直连。我这是属于放养式玩法，不是生产力的标配，可靠性，性能都比PCIE直连差点意思。

Fred

@David-Zhang 说:

作业牛逼，可以置顶！

谢谢看帖和肯定！

terry

@Fred 赶紧补图，我好白嫖一期，你这配置怎么能算误导呢？再说了，还得看我怎么写视频脚本对吧。

Fred

@terry 说:

@Fred 赶紧补图，我好白嫖一期，你这配置怎么能算误导呢？再说了，还得看我怎么写视频脚本对吧。

行。明天我再硬件板块那个原贴里补些细节图。

James Wei

我是395用户，最近上了MTP，体验感好了很多，Qwen3.5-122B-A10B-Q4KXL可以跑到32t/s，Qwen3.6-35B-A3B-Q8KXL可以跑到55t/s，APEX-balance量化可以跑到75t/s， Qwen3.6-27B-Q4KXL可以跑到25t/s

Fred

@James-Wei 说:

我是395用户，最近上了MTP，体验感好了很多，Qwen3.5-122B-A10B-Q4KXL可以跑到32t/s，Qwen3.6-35B-A3B-Q8KXL可以跑到55t/s，APEX-balance量化可以跑到75t/s， Qwen3.6-27B-Q4KXL可以跑到25t/s

对。我也测试过那个PR，MTP确实是对TG速度效果显著。目前还有些限制，必然PP速度降低，多模态功能被抹掉，我就暂时不上，坐等MTP合入llama.cpp主线，然后AI MAX 395就能凭空性能翻倍了。

xiaopbro

实测R9700，和楼主说的一样，跑qwen3.6-27b-q4挺慢的

Pita

這真的是超級乾貨了...一百個讚

mark

牛逼啊.... 感谢楼主分享.
祝楼主福如东海,寿比南山.

linghu007

R9700还是在我意向购买的最终目标中，因为架构更新，未来支持更久，虽然慢点，但可以支持4卡并联，性价比也高。

抡锤者

分享：4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据

GPU

玩法

测试工具

压测结果

结论

备注！AI MAX 395现在要重新评价它了，现在涨价到21000左右了，性价比已经比14000的时候低很多了！

GPU

玩法

测试工具

压测结果

结论

备注！AI MAX 395现在要重新评价它了，现在涨价到21000左右了，性价比已经比14000的时候低很多了！