抡锤者

Fred

我的装备看这个帖子：
https://lcz.me/topic/117/小小秀一下我的ai-rig/12

这个帖子主要是分享一下用这套装备能怎么跑大模型（LLM），有哪些组合，能大概跑出来什么样的效果等等。

GPU

RTX 4090 48G （独立显卡）
AMD Radeon AI PRO R9700 32G （独立显卡）
AMD Radeon 8060S Graphics 128G（AI MAX 395的集成显卡）

各自的特点：

AI Max 395：价格14000RMB左右，集成显卡代号8060S，共享内存128G，内存最大，能通吃许多大模型，但算力最低，内存带宽260G左右，也是最低，所以跑大模型的速度最慢；
4090 48G：价格30000RMB左右，最贵，最快，显存带宽1TB左右，生态最好，vLLM可以跑得飞起，但48G显存吃不下超大模型，但跑27B模型或者30B模型，可以把上下文放256K，非常爽；
R9700 32G：价格11000RMB左右，32G显存，速度尚可，性价比高，但算力和显存带宽（660G左右），都不如4090，因此速度介于8060S集成显卡和4090之间，能跑27B模型，选择Q4量化模型，上下文也能到256K。

玩法

分3类：

小模型单卡玩法，这就不说了，就是用一个卡跑一个模型；
中等模型分2卡玩法，例如Qwen3.5-122B模型，本来可以直接跑在AI MAX 395的集成显卡上，但我嫌他性能太差，然而4090和R9700两个卡，任何一个的显存又不够单跑这个模型，但2个卡加起来80G的VRAM就够了，因此可以将它用llama.cpp的-ts参数，分层到2块卡上跑，效果惊人地快；
超大模型分卡分3卡玩法，例如MiniMax M2.7这种，下载下来哪怕是Q4的量化版本，都有120多GB，连AI MAX 395的128GB都放不下（需要留内存给系统和kv cache），这种情况，可以把同一个模型分成3部分，让4090承担大头，AI MAX395承担中头，R9700承担小头。这样的性能会被AI MAX 395的集成显卡拖后腿，但是能跑，而且如果不用长上下文的Agent，仅用来聊天（利用超大知识库），性能也可以接受（吐字不慢）。

后面我就把这几种方法跑出来的效果给大家汇报一下。

测试工具

llama-benchy：我用这个工具，它是通过openai的兼容api端点做压测，可以对任何推理引擎做压测（我是vLLM和llama.cpp），它能反映最终用户（例如Hermes Agent）能真正感受到的速度。
GitHub - eugr/llama-benchy: llama-benchy - llama-bench style benchmarking tool for all backends

压测结果

模型	参数量	量化方式	权重大小	推理框架	GPU	PROMPT PREFILL (pp8192)	TOKEN GENERATION (tg512)
MiniMax2.7	230B-A10B	UD-IQ4_XS	102GB	llama.cpp (-ts)	4090+R9700+8060S	781.68	27.74
Qwen3.5-122B-A10B	122B-A10B	UD-Q4_K_XL	73GB	llama.cpp	8060S	352.36	20.96
Qwen3.5-122B-A10B	122B-A10B	UD-Q4_K_XL	73GB	llama.cpp (-ts)	4090+R9700	2234.51	53.63
Qwen3.6-35B-A3B	35B-A3B	Q5_K_XL	25G	llama.cpp	4090	7978.24	162.10
Qwen3.6-35B-A3B	35B-A3B	Q5_K_XL	25G	llama.cpp	R9700	2880.76	79.05
Qwen3.6-35B-A3B	35B-A3B	Q5_K_XL	25G	llama.cpp	8060S	946.44	50.77
Qwen3.6-27B	27B	AWQ-6Bit	26GB	vLLM	4090	2557.59	115.47 (with MTP)
Qwen3.6-27B	27B	UD-Q6_K_XL	25GB	llama.cpp	4090	2402.65	33.88
Qwen3.6-27B	27B	UD-Q4_K_XL	17GB	llama.cpp	R9700	914.31	26.56
Qwen3.6-27B	27B	UD-Q4_K_XL	17GB	llama.cpp	8060S	281.44	11.83

结论

这个结果其实就和特哥常常讲的一样，有多少钱卖多少钱的设备：买贵的吃不了亏，买便宜的占不了太多便宜。
以Qwen3.6-27B为例：

跑在AI MAX 395的8086S上，PP才281个，吐字才11个，这个机器14000RMB，你买到了128G的大显存，还得到了一台不错的windows/linux主机，但是速度没法和独立显卡相比；
跑在R9700上，PP一下子914个，吐字有26个每秒，这才是可用的速度，但代价是11000RMB；
跑在4090上，这生态上的优势马上就出来了，用vLLM打开成熟的MTP支持，多请求PP一下子2557个，吐字115个（不要去折腾A卡的vLLM了，我尝试过，Qwen3.6支持度不行，上下文有限，单请求速度不如llama.cpp），即使跑在llama.cpp上，PP速度也能到2402，只是吐字速度稍慢，才33个（受限与1TB显存带宽以及没有成熟的MTP）。这个卡30000RMB左右，比R9700贵了2倍左右，但你得到的效果也是2倍。

所以最后还是看自己，显卡这个市场现在基本上是一分钱一分货（除非被骗），不要纠结。自己想干啥，就买啥。

备注！AI MAX 395现在要重新评价它了，现在涨价到21000左右了，性价比已经比14000的时候低很多了！

Fred

上传图片说超负荷报错算了用外链

从左到右：

主机是AI MAX 395+ 128G统一内存
中间是一个霸气的绿联显卡坞插了一个R9700，USB4连接到主机
右边是一个4090 48G魔改涡轮卡，插在京东999显卡坞上，USB4连接到主机

可以干啥：
同时存在A卡、N卡、集成显卡（APU），一共有80G的VRAM，128G的UMA，可以跑这些组合：

llama.cpp 特殊编译选项（后面附），可以识别所有卡，可以跨卡用-ts参数跑230B的量化大模型，速度还可以；
可以在N卡上用vLLM跑Qwen3.6 27B Q6量化的模型，充分发挥vLLM的MTP功能，推理速度和Prefill速度都比llama.cpp更快；
可以在A卡、N卡上分别跑Comfy-UI；
主机AI MAX 395+的APU上因为内存大，可以跑一个Qwen3.5 122B的MoE模型，上下文短点的情况下速度也还可以。
……其他各种组合还可以发挥发挥

附llama.cpp编译参数
即让同一个llama.cpp即能识别A卡（ROCm设备），又能识别N卡（CUDA设备），还能用Vulkan通吃所有卡：

cmake -S . -B build \
    -DGGML_HIP=ON \
    -DGGML_VULKAN=ON \
    -DGGML_CUDA=ON \
    -DCMAKE_CUDA_ARCHITECTURES=89 \
    -DGGML_RPC=ON \
    -DLLAMA_HIP_UMA=ON \
    -DAMDGPU_TARGETS="gfx1030;gfx1031;gfx1151;gfx1201" \
    -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc \
    -DGGML_BACKEND_DL=ON \
    -DGGML_NATIVE=OFF \
    -DCMAKE_BUILD_TYPE=Release \
 && cmake --build build -j$(nproc) \
 && cmake --install build

说明：关键点是查好自己显卡的代号，然后正确设置CMAKE_CUDA_ARCHITECTURES，AMDGPU_TARGETS这几个宏。然后编译成功，用llama-cli --list-devices命令能看到自己的卡就说明成功了：

fred@ai395:~$ llama-cli --list-devices
......
Available devices:
  CUDA0: NVIDIA GeForce RTX 4090 (48508 MiB, 558 MiB free)
  ROCm0: Radeon 8060S Graphics (126976 MiB, 99084 MiB free)
  ROCm1: AMD Radeon AI PRO R9700 (32624 MiB, 32556 MiB free)
  Vulkan0: NVIDIA GeForce RTX 4090 (49386 MiB, 782 MiB free)
  Vulkan1: AMD Radeon AI PRO R9700 (RADV GFX1201) (32624 MiB, 32566 MiB free)
  Vulkan2: Radeon 8060S Graphics (RADV GFX1151) (127488 MiB, 111400 MiB free)

vLLM在N卡单跑Qwen3.6 27B Q6大模型的命令行：

export MODEL=/home/fred/llama-models/QuantTrio/Qwen3.6-27B-AWQ-6Bit
export SERVED_MODEL_NAME=Qwen3.6-27B-vLLM
export DOCKER_IMG=vllm/vllm-openai:latest
export HOST_PORT=8000

podman run --name ${SERVED_MODEL_NAME} --device nvidia.com/gpu=all \
    -v /tmp:/workspace \
    -v $MODEL:$MODEL \
    --env "HF_TOKEN=$HF_TOKEN" \
    -p 8000:8000 \
    --ipc=host \
    $DOCKER_IMG $MODEL \
    --max-model-len 200000 \
    --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}' \
    --kv-cache-dtype fp8 \
    --tensor-parallel-size 1 \
    --enable-prefix-caching \
    --max-num-batched-tokens 8192 \
    --max-num-seqs 2 \
    --served-model-name ${SERVED_MODEL_NAME} \
    --enable-auto-tool-choice \
    --reasoning-parser qwen3 \
    --tool-call-parser qwen3_coder \
    --gpu-memory-utilization 0.9 \
    --host 0.0.0.0 \
    --port 8000

其他说明

模型可以全速跑，但前提是全量的模型必须能fit进某一个卡的VRAM，这样USB4不会造成降速。
用llama.cpp的-ts选项跨卡跑模型，可以充分利用各卡的显存，由于USB4的时延比PCIE高，所以性能稍有损失，但不大，因为跨卡数据交换量不大且交换并不频繁。
vLLM不可跨A卡和N卡跑Tensor Parallel，只能跨多个A卡和多个N卡（因为底层的PyTorch只能支持一个版本）。
我在llama.cpp和vLLM前端顶了一个可以自动切换模型的代理工具llama-swap，定义好之后用起来是很方便的。
操作系统是Fedora Linux 43，驱动跟着社区更新就行（时不时的dnf update一下）。
要懂点Linux，不然不要这么玩，还是要懂些技术才能搞定的。

秀完了
这一套东西，加起来还是得5万左右。现在AI MAX 395又涨价了，可能现在得5万5左右了。目前还只是纯玩，平时实在没时间琢磨怎么用它赚钱。

Fred

@Miraco 对于小白来说，现在还不是时候。目前还是一个PR，等合入llama.cpp主线版本后，你再去拿来用，别花时间现在去折腾。目前2大问题：

MTP虽然能大幅增加推理吐字速度，但同时会导致Prefill速度降低，这是社区已知bug，有大神在积极处理，不妨等着。因为对于Hermes Agent或者编程Agent这一类的应用而言，上下文很长，Prefill速度和推理吐字的速度（TG速度），对于人的感受同样重要。
目前上了PR里的MTP，就只能上一个并发(-np 1)，对于有subagent的应用来说，还是有点影响。

总之就是小白不建议折腾，坐等社区进主线用稳定版的，它才香。

Fred

来补些图：
图1：注意看，在下面一层有一个关键设备：大疆POWER 1000。当成一个UPS来用，都花了这么多小钱钱，买了卡买了机器，不要吝啬把电源配得保险一些，别因为电源闪断，或者电压不稳或者突然断电，烧了卡之后还要找修显卡的张哥，就麻烦大了。
替代文字

图2：4090显卡，以及狗东999的显卡坞，USB4和Ocuulink双接口，自带800w电源，很不错。但两个特别提醒：

不要买2个这种同样显卡坞插到同一台主机。因为它有个白痴低级失误：它的雷电UUID好像是固定的，没法改，每个显卡坞都是一样的UUID。因此在Linux下，只能识别一个这种显卡坞。当时我本来是买了2个这个显卡坞，但第二个始终不识别，这个问题当时折腾我好久。最后买了退，退了换，最后换了品牌，有了不同的TB UUID才搞定。着着实实享受了一把狗东的售后服务。
4090和R9700，都是12PIN+4PIN的PCI-E电源线，这个显卡坞不带这种线，只带3个8PIN线，需要自己买转接，或者显卡如果带也行。

图3：霸气的绿联显卡坞，自带850W金牌电源，自带12PIN+4PIN，自带8PIN，通吃一切显卡。缺点是不便宜啊，显卡坞2000+的就不算便宜了：
替代文字

图4：颜值在线的R9700，这卡是真好看。但它在显卡坞上有个毛病要注意：如果主机不开机，它的风扇会狂转。
替代文字

图5图6：主机AI MAX 395，零刻的128G版本，刚去查了一下狗东，狗日的涨价到21000了！我当时买的时候14000。后面带2个10G网口，2个USB4 type-c，前置带指纹解锁（Windows才能用）。我插了2个显卡坞，都是type-c，后面看着也不拥挤，还好。我这个机器是Linux无头服务器，也不用它打游戏啥的，因此随意插了一个hdmi的线到显示器。干干净净的，不挤。
替代文字

总结一下几个坑：

不要买2个同样型号的狗东999显卡坞
R9700外置，如果主机不开，风扇会狂转，此时只能自己去关显卡坞的电源
尽量上个UPS，对你的几万块的资产稍微好点

Fred

@Tony-Wang 说:

在Amazon上看到一个技嘉的 AI Box 一体式液冷显卡, 似乎很安静的样子, 配个支持雷电5的小主机, 很优雅的方案.

6500加币不到(税后), 价格也不错, 可惜没法带回国各位老大是否了解, 在国内能买到这个这吗?

够优雅，有点意思。如果有Occulink的话，就更好了。
现在显卡坞我一般买双接口的，除了雷电还有Occulink。如果你后面扩展2卡做TP（tensor parallel），雷电的时延挺高，双卡跑起来效果就显著不如Occulink的PCIE直连了。不过我这个结论是参考的reddit，自己没有实测过。但Apple在MAC上给雷电添加了RDMA支持，就是为了降低时延，从这一点来看，雷电时延高会降低TP速度这个结论应该是比较靠谱的。

Fred

@张老师说:

@Fred 说:

不要买2个同样型号的狗东999显卡坞

这个有什么说法吗？插到同一台机器上会Bug？

第二个不识别，用tbctl list命令只能看见第一个。后来我反复测试，发现他们家显卡坞的每个设备UUID都相同。如果2个雷电设备UUID相同，Linux的tb驱动在授权（enroll）雷电设备的时候，是以UUID来区分设备的，结果是第二个没法用uuid授权了。因此我的第二个显卡坞不识别，我也没找到修改uuid的方法（据说是烧录在显卡坞固件的），最后就不折腾了，把第二个退了。

Fred

再补，llama.cpp单卡命令行。

和分卡命令行：

vllm命令行:

Fred

@terry 说:

@Fred 抄作业的材料凑足了，又能水一集。

行。这些帖子特哥您看着随便用。

Fred

如果你demo打游戏，那就5090D -_-;;;
小特瞎说，Qwen3.6哪里来的70B，只有27B和35B MoE。这两个5090D都能跑。
如果跑LLM，确实是显存大就可以为所欲为，R9700配合llama.cpp的分层功能，不算慢。也可以尝试vLLM的双卡TP，但我试了，A卡vLLM对Qwen3.6支持不行，一些旧模型可以，但上下文非常有限，性能不如N卡。真要尝试，用linux，用这位老哥的toolbox：https://github.com/kyuz0/amd-r9700-vllm-toolboxes/

你要是demo视频生成啥的，那就问老特，这方面我没经验了。

Fred

@Vittoria-Veloso 说:

问下，我的笔记本mac他的显存可以给到23gb左右，我发现4bit量化的qwen 3.6 27b明显强于qwen 3.5 9b 8bit换成3.5也类似。我只有2w rmb的预算是在买个mac 64gb还是上英伟达显卡，算了装台湾人上辉达显卡还是mac，2w人民币预算。我不想折腾Claude，封号太严重了，Gemini确实生成代码质量不太高，而且客户要求隐私。

你这个需求有2万预算绰绰有余了。目前情况下一定是上独立显卡不管是R9700还是英伟达的某个魔改卡，肯定比mac的效果好。
如果羡慕claude code的效果，又不想用官方模型，可以试试这个：https://github.com/Alishahryar1/free-claude-code 这个项目，把本地LLM伪装成claude code的官方网关，顶在你的本地llama.cpp之前，模拟出全功能的Opus、Sonnet、Haiku模型。你开发的客户端可以用claude code，享受全量功能和插件（包括automode也能开）。
但更原生不折腾的方法也有，用trae.CN做编程，直接对接llama.cpp就是了（推荐）。

Fred

@pilipala 说:

@Fred 老哥的4090是狗东哪家买的，看看是不是一家，我的万一翻车了就买你那家的，还有R9700是1万1入的么？

我在一家叫做天成智算买的，不过还是推荐自营的那两家。我这个的发货过程有点波折，他们一开始给我填了一个错误的单号，第二天就显示我已经收货了，实际上我连毛都没看到，货也显示被发到了浙江某个地址，跟我完全不在一个省。
后来他们重新填了单号。货到之后我用Linux的gpu-burn工具压测一小时没问题，这几天用下来感觉还是不错，我就给他们确认收货了。

Fred

@johnnybegood 说:

@Fred 这一套跟 6000 pro 96g 比起来如何呢？

这两者相比属于是用法拉利对比大众高尔夫GTI了。PRO 6000单卡大显存，N卡最新架构，算力比5090略强，从生态，到实际的性能，都比这3货加起来还强不少。但我没法给你准确的数字，只知道肯定是PRO 6000强。
考虑价格，我这套就算5万5吧，PRO 6000单卡7万，加配个主机，稍微配寒碜一点的主机估计总共8万5拿下吧。我觉得3万差价基本上就是两者性能上的差距。
但是需要知道一点，我这个大众高尔夫GTI也不是一无是处，PRO 6000单卡跑230B大模型估计够呛，如果还想所有层都在显存里，更是不足够的。但我这个3个GPU加起来就可以跑出来不错的感受。

Fred

@幻獸我用外链了，直接上传论坛总是失败。我这还不算多哦，玩起来就没个底，我强迫自己不能再买了，再买砍手。

Fred

https://lcz.me/topic/143/分享-4090-48g-r9700-32g-ai-max-395-8060s-跑大语言模型的实测数据

作业交了 @terry