请问有没有人可以帮助提供 AMD AI MAX 395 跑Qwen3.6-27B的速度情况？

Reply to 请问有没有人可以帮助提供 AMD AI MAX 395 跑Qwen3.6-27B的速度情况？ on Sat, 27 Jun 2026 23:53:05 GMT

lxbs — Sat, 27 Jun 2026 23:53:05 GMT

sirwang — Sat, 27 Jun 2026 14:47:47 GMT

昨天拿到机器了，今天中午才把comfyui和模型下载完成。今天只是测试了一些视频，这几天我会测试一些LLM的东西。我个人还是比较期待‘大模型+comfyui’完全本地运行。的这种需求。

566656661 — Sat, 27 Jun 2026 14:16:16 GMT

120B我只想到GPT-OSS-120B

kop wang — Sat, 27 Jun 2026 13:49:59 GMT

统一内存的方案优势在中等MoE模型，但是目前业界并没有什么拿得出手的122B这类的MoE模型。

566656661 — Sat, 27 Jun 2026 13:06:57 GMT

Strix Halo只適合跑細小MoE, Dense基本上陣亡

可以參考這個Repo

附帶一點27B性能截圖:

只能説短問答可用吧...

terry — Sat, 27 Jun 2026 08:43:25 GMT

就是不太实用，Q4量化 10t/s左右。跑Agent会慢到吐血，prefill几分钟起步。

williamlouis — Sat, 27 Jun 2026 07:37:57 GMT

我记得好像是 5t/s.
Strix Halo 的推理性能受限于内存带宽而非算力：
UMA 带宽约 215 GB/s（理论值）
27B 模型的 decode 主要是权重流带宽瓶颈
因此量化到 Q8_0 比 BF16 快约 75%，Q4 比 Q8 更快
需要高速推理可以被劝退了。

精度	权重大小	显存占用	Decode 速度	适用场景
BF16 (vLLM)	51.2 GB	~105 GB	~4.3 t/s	需原生精度、Vision 输入、Responses API
Q8_0 (llama.cpp)	~27 GB	~35 GB	~7.5 t/s	日常对话、Agent 循环、速度优先
Q4_K_M	~16.8 GB	更低	~10-12 t/s	长上下文、多模型并发