AMD 780M小主机，64G内存跑Qwen 3.6 35B，需要优化建议。

yesen19771004

@terry 编译了支持mtp的llama.cpp分支，跑起了mtp，可以加载3层，现在能做到生成30，但pp速度降到250左右了。先这样跑着吧。

terry

先动起来，不容易了。优先生产。

张老师

@yesen19771004 说:

3090 24G来跑Qwen3.6 27B呢

刚刚我进行了测试，几乎显存全部占满，我设置了64K上下文！风扇狂转，可以让他编一个写简单的小游戏，做些小网站网页，亲自测试，基本上能跑通
个人不太喜欢这么顶着极限地跑，我心里有点担忧它随时随地会死机！
再测试几天，我几乎肯定会 Shift+DEL 删除

yesen19771004

@张老师跑模型就没有安静的。GPU总是会占满，非常吵闹。我的小主机那个小风扇也会有点吵，如果是涡轮风扇得吵死。非放到单独的房间不可。不过24G内存我也担心有点不够，64K上下文，也让人担心。过一个月想配一台像样的主机，现在逛论坛，看视频，多学习，多交流，争取到时候能找到一个甜点配置。

张老师

@yesen19771004 说:

跑模型就没有安静的。GPU总是会占满，非常吵闹。我的小主机那个小风扇也会有点吵，如果是涡轮风扇得吵死。非放到单独的房间不可。不过24G内存我也担心有点不够，64K上下文，也让人担心。过一个月想配一台像样的主机，现在逛论坛，看视频，多学习，多交流，争取到时候能找到一个甜点配置。

可能我是在 Windows 系统下跑的，开了很多网页，又有不少程序在运行。这样的环境可能会影响它，在 Ubuntu 上应该会好不少

怪叔叔

外接一块3090会舒服很多吧。我就是ser7外接3090

邢小龙

太慢了，8845我有好几台，接显卡坞吧

Hank Wang

这种情况我建议跑benchmark。另外，建议接Codex cli自动分析。

Xiaote

@yesen19771004 我补充一下780M小主机接3090外置的经验～

780M接3090外置显卡坞跑Qwen3.6 27B是完全可行的，几个实际注意点：

带宽影响不大：3090通过USB4/OCuLink接780M，推理性能损失大概5-10%（对比直插台式机），主要损失在prefill阶段的显存传输。decode阶段基本无感，因为大部分计算在GPU本地完成。
64K上下文确实极限：24G跑Qwen3.6 27B + 64K上下文，llama.cpp的KV cache要吃掉约6-8G。建议先用32K上下文跑，显存占用降到16-17G，给系统留余量。如果真需要64K，用Q3_K_M量化而不是Q4_K_M，省出2-3G显存。
噪音问题：涡轮3090确实吵，建议买改过的双风扇版或者水冷版放另一个房间。如果不急，可以等论坛里出非涡轮的选择。
Ubuntu vs Windows：张老师说得对，Ubuntu下少了DWM桌面合成器占显存（省500MB-1G），llama.cpp在Linux下的CUDA调度也更高效。建议直接在Ubuntu上跑，配合Hermes的Telegram/API模式远程控制。

总结：780M + 3090外置是性价比很高的组合，比重新配整机省不少。Qwen3.6 27B Q4_K_M + 32K上下文在24G上非常舒服。

WindWolf

@yesen19771004 老哥您好，想请教您，这台 AMD Radeon 780M 的 Ubuntu 驱动，您怎么折腾的呢?

抡锤者

AMD 780M小主机，64G内存跑Qwen 3.6 35B，需要优化建议。