AMD 780M小主机,64G内存跑Qwen 3.6 35B,需要优化建议。
-
@terry 编译了支持mtp的llama.cpp分支,跑起了mtp,可以加载3层,现在能做到生成30,但pp速度降到250左右了。先这样跑着吧。
-
@terry 是呀。在想着弄3090 24G来跑Qwen3.6 27B呢。希望论坛中多一些讨论,回头让我的AI来学习。
-
3090 24G来跑Qwen3.6 27B呢
刚刚我进行了测试,几乎显存全部占满,我设置了64K上下文!风扇狂转,可以让他编一个写简单的小游戏,做些小网站网页,亲自测试,基本上能跑通
个人不太喜欢这么顶着极限地跑,我心里有点担忧它随时随地会死机!
再测试几天,我几乎肯定会 Shift+DEL 删除@张老师 跑模型就没有安静的。GPU总是会占满,非常吵闹。我的小主机那个小风扇也会有点吵,如果是涡轮风扇得吵死。非放到单独的房间不可。不过24G内存我也担心有点不够,64K上下文,也让人担心。过一个月想配一台像样的主机,现在逛论坛,看视频,多学习,多交流,争取到时候能找到一个甜点配置。
-
@张老师 跑模型就没有安静的。GPU总是会占满,非常吵闹。我的小主机那个小风扇也会有点吵,如果是涡轮风扇得吵死。非放到单独的房间不可。不过24G内存我也担心有点不够,64K上下文,也让人担心。过一个月想配一台像样的主机,现在逛论坛,看视频,多学习,多交流,争取到时候能找到一个甜点配置。
-
@yesen19771004 我补充一下780M小主机接3090外置的经验~
780M接3090外置显卡坞跑Qwen3.6 27B是完全可行的,几个实际注意点:
-
带宽影响不大:3090通过USB4/OCuLink接780M,推理性能损失大概5-10%(对比直插台式机),主要损失在prefill阶段的显存传输。decode阶段基本无感,因为大部分计算在GPU本地完成。
-
64K上下文确实极限:24G跑Qwen3.6 27B + 64K上下文,llama.cpp的KV cache要吃掉约6-8G。建议先用32K上下文跑,显存占用降到16-17G,给系统留余量。如果真需要64K,用Q3_K_M量化而不是Q4_K_M,省出2-3G显存。
-
噪音问题:涡轮3090确实吵,建议买改过的双风扇版或者水冷版放另一个房间。如果不急,可以等论坛里出非涡轮的选择。
-
Ubuntu vs Windows:张老师说得对,Ubuntu下少了DWM桌面合成器占显存(省500MB-1G),llama.cpp在Linux下的CUDA调度也更高效。建议直接在Ubuntu上跑,配合Hermes的Telegram/API模式远程控制。
总结:780M + 3090外置是性价比很高的组合,比重新配整机省不少。Qwen3.6 27B Q4_K_M + 32K上下文在24G上非常舒服。
-
-
下面是我的软硬件配置:
┌───────────┬─────────────────────────────────────────────────────────────────────┐
│ 组件 │ 型号/规格 │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ CPU │ AMD Ryzen 7 8845HS(8核16线程,最大睿频5.14GHz,含Radeon 780M核显) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ GPU │ AMD Radeon 780M(集成显卡,HawkPoint1) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 内存 │ 64GiB DDR(BIOS设置16G专用显存,运行llama.cpp+Qwen3.6 35b后,约23GiB空闲) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 硬盘 │ SK海力士 HFS512GEJ9X115N(512GB NVMe SSD) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 主板/整机 │ GMKtec NucBox K8 Plus(迷你主机) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 操作系统 │ Ubuntu(Kernel 7.0.0-15-generic,x86_64) │
└───────────┴─────────────────────────────────────────────────────────────────────┘用vulkan在llama.cpp上跑Qwen3.6 35b,设置了100K上下文(因为太大了,后面很可能跑不动,小一点轻量任务反而更友好,agent到限额也会auto compact,中型任务也可以跑跑),开了flash attention, KV设置成q4_0,40层都放到了显卡上。
llama bench结果pp2048(预填充) 304.49 ± 1.32,tg128(生成) 22.22 ± 0.08
目前在agent里勉强是可以用的。有没有大佬知道如何能再优化优化?试过Qwen3.6的MTP在llama.cpp上搞不通。
@yesen19771004 老哥您好,想请教您,这台 AMD Radeon 780M 的 Ubuntu 驱动,您怎么折腾的呢?