抡锤者

Fred

@Vittoria-Veloso 说:

问下，我的笔记本mac他的显存可以给到23gb左右，我发现4bit量化的qwen 3.6 27b明显强于qwen 3.5 9b 8bit换成3.5也类似。我只有2w rmb的预算是在买个mac 64gb还是上英伟达显卡，算了装台湾人上辉达显卡还是mac，2w人民币预算。我不想折腾Claude，封号太严重了，Gemini确实生成代码质量不太高，而且客户要求隐私。

你这个需求有2万预算绰绰有余了。目前情况下一定是上独立显卡不管是R9700还是英伟达的某个魔改卡，肯定比mac的效果好。
如果羡慕claude code的效果，又不想用官方模型，可以试试这个：https://github.com/Alishahryar1/free-claude-code 这个项目，把本地LLM伪装成claude code的官方网关，顶在你的本地llama.cpp之前，模拟出全功能的Opus、Sonnet、Haiku模型。你开发的客户端可以用claude code，享受全量功能和插件（包括automode也能开）。
但更原生不折腾的方法也有，用trae.CN做编程，直接对接llama.cpp就是了（推荐）。

Fred

@极品青蛙说:

@fred 我零刻gti15用的零刻600w显卡坞，就2个8pin，请教个接7900xtx这3个8pin的方案，豆包和卖家说价买个1分2的线插第二个8pin口，不要求性能发挥满，只要不烧卡就行，感谢！

还是稳妥起见，显卡坞有3个8P才保险。你看这些个帖子吧，很多人反对这样做：https://forums.tomshardware.com/threads/can-i-use-a-3-x-8-pin-7900-xtx-with-only-2-x-8-pins-connected-to-it.3809019/
https://linustechtips.com/topic/1475161-is-rx-7900-xtx-able-to-work-from-2-pcie-cables-instead-of-3/

Fred

@terry 说:

@Fred 不能这么搞，如果显卡坞只有2个8pin肯定不行，显卡坞带不动xtx，显卡坞要换。它功率不够。xtx必须3根。或则会有12+4 转3* 8pin才行。如果是R9700，它2* 8pin转16pin可以带的动，单8pin就150w左右。

嗯。还是谨慎些的好。烧了卡可就麻烦。

@张鑫磊你还是以特哥说的为准。我的R9700是一根16PIN线，显卡坞有3个口，我就买了根3x8P转16P的线搞定的。但我那个卡、显卡坞都和你的不同，显卡坞最好还是要有3个8P才好适配你的卡。

Fred

@张鑫磊说:

合体了，机器CPU285H，64G内存，6T固态，显卡坞2个8PIN,显卡3个8PIN,该怎么去接？2跟线不行，问豆包说转接线1个8pin转2个8pin的，不知道行不行，就怕坏了显卡，显卡坞600w,每个pin口300w，在线等帮助。感谢老特小特，感谢路过的大神们！

擦，你这个显卡坞比显卡少一根8pin线，跟我的不一样啊。我的显卡只有一根12+4P线。你的卡是3根8P线。我的显卡坞有3个8P口刚好可以一对一，你的显卡坞只有2个。
不过我个人感觉你的显卡坞每个口都提供最高300w的功率，所以应该是一根直插，再买一个一分二的8PIN一分二线插显卡坞另一个口，就可以变成2分3了，插满显卡的3个口。本身8P线就只能提供150W，所以你的300W口一分二是没有问题的。

Fred

一手测试数据，踩完坑走通全程，然后发出来的分享。这种是最有价值的。赞！

Fred

@James-Wei 说:

我是395用户，最近上了MTP，体验感好了很多，Qwen3.5-122B-A10B-Q4KXL可以跑到32t/s，Qwen3.6-35B-A3B-Q8KXL可以跑到55t/s，APEX-balance量化可以跑到75t/s， Qwen3.6-27B-Q4KXL可以跑到25t/s

对。我也测试过那个PR，MTP确实是对TG速度效果显著。目前还有些限制，必然PP速度降低，多模态功能被抹掉，我就暂时不上，坐等MTP合入llama.cpp主线，然后AI MAX 395就能凭空性能翻倍了。

Fred

@张老师说:

@Fred 说:

不要买2个同样型号的狗东999显卡坞

这个有什么说法吗？插到同一台机器上会Bug？

第二个不识别，用tbctl list命令只能看见第一个。后来我反复测试，发现他们家显卡坞的每个设备UUID都相同。如果2个雷电设备UUID相同，Linux的tb驱动在授权（enroll）雷电设备的时候，是以UUID来区分设备的，结果是第二个没法用uuid授权了。因此我的第二个显卡坞不识别，我也没找到修改uuid的方法（据说是烧录在显卡坞固件的），最后就不折腾了，把第二个退了。

Fred

@pilipala 说:

@Fred 老哥的4090是狗东哪家买的，看看是不是一家，我的万一翻车了就买你那家的，还有R9700是1万1入的么？

我在一家叫做天成智算买的，不过还是推荐自营的那两家。我这个的发货过程有点波折，他们一开始给我填了一个错误的单号，第二天就显示我已经收货了，实际上我连毛都没看到，货也显示被发到了浙江某个地址，跟我完全不在一个省。
后来他们重新填了单号。货到之后我用Linux的gpu-burn工具压测一小时没问题，这几天用下来感觉还是不错，我就给他们确认收货了。

Fred

@terry 说:

@Fred 抄作业的材料凑足了，又能水一集。

行。这些帖子特哥您看着随便用。

Fred

再补，llama.cpp单卡命令行。

和分卡命令行：

vllm命令行:

Fred

来补些图：
图1：注意看，在下面一层有一个关键设备：大疆POWER 1000。当成一个UPS来用，都花了这么多小钱钱，买了卡买了机器，不要吝啬把电源配得保险一些，别因为电源闪断，或者电压不稳或者突然断电，烧了卡之后还要找修显卡的张哥，就麻烦大了。
替代文字

图2：4090显卡，以及狗东999的显卡坞，USB4和Ocuulink双接口，自带800w电源，很不错。但两个特别提醒：

不要买2个这种同样显卡坞插到同一台主机。因为它有个白痴低级失误：它的雷电UUID好像是固定的，没法改，每个显卡坞都是一样的UUID。因此在Linux下，只能识别一个这种显卡坞。当时我本来是买了2个这个显卡坞，但第二个始终不识别，这个问题当时折腾我好久。最后买了退，退了换，最后换了品牌，有了不同的TB UUID才搞定。着着实实享受了一把狗东的售后服务。
4090和R9700，都是12PIN+4PIN的PCI-E电源线，这个显卡坞不带这种线，只带3个8PIN线，需要自己买转接，或者显卡如果带也行。

图3：霸气的绿联显卡坞，自带850W金牌电源，自带12PIN+4PIN，自带8PIN，通吃一切显卡。缺点是不便宜啊，显卡坞2000+的就不算便宜了：
替代文字

图4：颜值在线的R9700，这卡是真好看。但它在显卡坞上有个毛病要注意：如果主机不开机，它的风扇会狂转。
替代文字

图5图6：主机AI MAX 395，零刻的128G版本，刚去查了一下狗东，狗日的涨价到21000了！我当时买的时候14000。后面带2个10G网口，2个USB4 type-c，前置带指纹解锁（Windows才能用）。我插了2个显卡坞，都是type-c，后面看着也不拥挤，还好。我这个机器是Linux无头服务器，也不用它打游戏啥的，因此随意插了一个hdmi的线到显示器。干干净净的，不挤。
替代文字

总结一下几个坑：

不要买2个同样型号的狗东999显卡坞
R9700外置，如果主机不开，风扇会狂转，此时只能自己去关显卡坞的电源
尽量上个UPS，对你的几万块的资产稍微好点

Fred

@terry 说:

@Fred 赶紧补图，我好白嫖一期，你这配置怎么能算误导呢？再说了，还得看我怎么写视频脚本对吧。

行。明天我再硬件板块那个原贴里补些细节图。

Fred

deepseek v4 flash 的推理速度理论上确实应该比Qwen3.6 27B快的，因为它是个MoE模型，激活参数只有13B，比27B稠密模型确实是快一些。我估计27B稠密在这个机器上能跑到20t/s就挺不错了（如果不开MTP或者DFLASH这类）。
但是ds4.c这个框架确实值得关注，因为作者太牛逼，如果我没看错的话，他是Redis的作者，在码农眼里属于现象级的人物。他觉得能拿出手的东西，那就肯定是NB的。

Fred

如果你demo打游戏，那就5090D -_-;;;
小特瞎说，Qwen3.6哪里来的70B，只有27B和35B MoE。这两个5090D都能跑。
如果跑LLM，确实是显存大就可以为所欲为，R9700配合llama.cpp的分层功能，不算慢。也可以尝试vLLM的双卡TP，但我试了，A卡vLLM对Qwen3.6支持不行，一些旧模型可以，但上下文非常有限，性能不如N卡。真要尝试，用linux，用这位老哥的toolbox：https://github.com/kyuz0/amd-r9700-vllm-toolboxes/

你要是demo视频生成啥的，那就问老特，这方面我没经验了。

Fred

@johnnybegood 说:

@Fred 这一套跟 6000 pro 96g 比起来如何呢？

这两者相比属于是用法拉利对比大众高尔夫GTI了。PRO 6000单卡大显存，N卡最新架构，算力比5090略强，从生态，到实际的性能，都比这3货加起来还强不少。但我没法给你准确的数字，只知道肯定是PRO 6000强。
考虑价格，我这套就算5万5吧，PRO 6000单卡7万，加配个主机，稍微配寒碜一点的主机估计总共8万5拿下吧。我觉得3万差价基本上就是两者性能上的差距。
但是需要知道一点，我这个大众高尔夫GTI也不是一无是处，PRO 6000单卡跑230B大模型估计够呛，如果还想所有层都在显存里，更是不足够的。但我这个3个GPU加起来就可以跑出来不错的感受。

Fred

@pilipala 说:

@Fred 我和你一样，打工仔，只能利用业余时间折腾，如果能赚到外快最好，赚不到也无所谓，就当纯乐子玩了。4090 48周末终于要到了，老特这几天一直发硬件视频搞心态哈哈～

哈哈。我也是看了老特视频，才去狗东淘了一块4090魔改卡的。爽真是爽，特别是在有对比的情况下。就是肉有点疼，好在狗东的物流也比较靠谱。

Fred

@David-Zhang 说:

作业牛逼，可以置顶！

谢谢看帖和肯定！

Fred

@terry 说:

@Fred 我草，这绝对精华帖子，我要做一个单独视频，给老弟署名。你给弄几张截图啊，最好是黑乎乎的背景，显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接，让大家来膜拜下你。

哈哈不用单做视频特哥。我经常看你油管，学到很多东西，想着回报一下你。我的资料你随便用在视频里面。我是属于那种闲散玩法，比较佛系，有时间就来吹吹牛逼，分享点内容。不过我这个配置是有误导性的：不推荐显卡坞，有条件一定是尽量PCIE直连。我这是属于放养式玩法，不是生产力的标配，可靠性，性能都比PCIE直连差点意思。

Fred

https://lcz.me/topic/143/分享-4090-48g-r9700-32g-ai-max-395-8060s-跑大语言模型的实测数据

作业交了 @terry

Fred

我的装备看这个帖子：
https://lcz.me/topic/117/小小秀一下我的ai-rig/12

这个帖子主要是分享一下用这套装备能怎么跑大模型（LLM），有哪些组合，能大概跑出来什么样的效果等等。

GPU

RTX 4090 48G （独立显卡）
AMD Radeon AI PRO R9700 32G （独立显卡）
AMD Radeon 8060S Graphics 128G（AI MAX 395的集成显卡）

各自的特点：

AI Max 395：价格14000RMB左右，集成显卡代号8060S，共享内存128G，内存最大，能通吃许多大模型，但算力最低，内存带宽260G左右，也是最低，所以跑大模型的速度最慢；
4090 48G：价格30000RMB左右，最贵，最快，显存带宽1TB左右，生态最好，vLLM可以跑得飞起，但48G显存吃不下超大模型，但跑27B模型或者30B模型，可以把上下文放256K，非常爽；
R9700 32G：价格11000RMB左右，32G显存，速度尚可，性价比高，但算力和显存带宽（660G左右），都不如4090，因此速度介于8060S集成显卡和4090之间，能跑27B模型，选择Q4量化模型，上下文也能到256K。

玩法

分3类：

小模型单卡玩法，这就不说了，就是用一个卡跑一个模型；
中等模型分2卡玩法，例如Qwen3.5-122B模型，本来可以直接跑在AI MAX 395的集成显卡上，但我嫌他性能太差，然而4090和R9700两个卡，任何一个的显存又不够单跑这个模型，但2个卡加起来80G的VRAM就够了，因此可以将它用llama.cpp的-ts参数，分层到2块卡上跑，效果惊人地快；
超大模型分卡分3卡玩法，例如MiniMax M2.7这种，下载下来哪怕是Q4的量化版本，都有120多GB，连AI MAX 395的128GB都放不下（需要留内存给系统和kv cache），这种情况，可以把同一个模型分成3部分，让4090承担大头，AI MAX395承担中头，R9700承担小头。这样的性能会被AI MAX 395的集成显卡拖后腿，但是能跑，而且如果不用长上下文的Agent，仅用来聊天（利用超大知识库），性能也可以接受（吐字不慢）。

后面我就把这几种方法跑出来的效果给大家汇报一下。

测试工具

llama-benchy：我用这个工具，它是通过openai的兼容api端点做压测，可以对任何推理引擎做压测（我是vLLM和llama.cpp），它能反映最终用户（例如Hermes Agent）能真正感受到的速度。
GitHub - eugr/llama-benchy: llama-benchy - llama-bench style benchmarking tool for all backends

压测结果

模型	参数量	量化方式	权重大小	推理框架	GPU	PROMPT PREFILL (pp8192)	TOKEN GENERATION (tg512)
MiniMax2.7	230B-A10B	UD-IQ4_XS	102GB	llama.cpp (-ts)	4090+R9700+8060S	781.68	27.74
Qwen3.5-122B-A10B	122B-A10B	UD-Q4_K_XL	73GB	llama.cpp	8060S	352.36	20.96
Qwen3.5-122B-A10B	122B-A10B	UD-Q4_K_XL	73GB	llama.cpp (-ts)	4090+R9700	2234.51	53.63
Qwen3.6-35B-A3B	35B-A3B	Q5_K_XL	25G	llama.cpp	4090	7978.24	162.10
Qwen3.6-35B-A3B	35B-A3B	Q5_K_XL	25G	llama.cpp	R9700	2880.76	79.05
Qwen3.6-35B-A3B	35B-A3B	Q5_K_XL	25G	llama.cpp	8060S	946.44	50.77
Qwen3.6-27B	27B	AWQ-6Bit	26GB	vLLM	4090	2557.59	115.47 (with MTP)
Qwen3.6-27B	27B	UD-Q6_K_XL	25GB	llama.cpp	4090	2402.65	33.88
Qwen3.6-27B	27B	UD-Q4_K_XL	17GB	llama.cpp	R9700	914.31	26.56
Qwen3.6-27B	27B	UD-Q4_K_XL	17GB	llama.cpp	8060S	281.44	11.83

结论

这个结果其实就和特哥常常讲的一样，有多少钱卖多少钱的设备：买贵的吃不了亏，买便宜的占不了太多便宜。
以Qwen3.6-27B为例：

跑在AI MAX 395的8086S上，PP才281个，吐字才11个，这个机器14000RMB，你买到了128G的大显存，还得到了一台不错的windows/linux主机，但是速度没法和独立显卡相比；
跑在R9700上，PP一下子914个，吐字有26个每秒，这才是可用的速度，但代价是11000RMB；
跑在4090上，这生态上的优势马上就出来了，用vLLM打开成熟的MTP支持，多请求PP一下子2557个，吐字115个（不要去折腾A卡的vLLM了，我尝试过，Qwen3.6支持度不行，上下文有限，单请求速度不如llama.cpp），即使跑在llama.cpp上，PP速度也能到2402，只是吐字速度稍慢，才33个（受限与1TB显存带宽以及没有成熟的MTP）。这个卡30000RMB左右，比R9700贵了2倍左右，但你得到的效果也是2倍。

所以最后还是看自己，显卡这个市场现在基本上是一分钱一分货（除非被骗），不要纠结。自己想干啥，就买啥。

备注！AI MAX 395现在要重新评价它了，现在涨价到21000左右了，性价比已经比14000的时候低很多了！