抡锤者

yesen19771004

@VS-Studio 很正常，我的amd小主机，780m跑他都有30多 t/s。

yesen19771004

@mankit-fu 其实opencode go还是在按token打折卖，并不是原来那种计算请求次数的方式。有人算过，opencode的deepseek v4 flash相当于官方api价格的8折，所以如果你配了机器不多用，机器配置的费用就白瞎了，如果你配了机器用得很多，肯定是比coding plan划算的。当然，你这个电费是有点高的。如果你用量不大，一天干不过1000万token，搞个coding plan算了。

yesen19771004

@张老师跑模型就没有安静的。GPU总是会占满，非常吵闹。我的小主机那个小风扇也会有点吵，如果是涡轮风扇得吵死。非放到单独的房间不可。不过24G内存我也担心有点不够，64K上下文，也让人担心。过一个月想配一台像样的主机，现在逛论坛，看视频，多学习，多交流，争取到时候能找到一个甜点配置。

yesen19771004

@terry 编译了支持mtp的llama.cpp分支，跑起了mtp，可以加载3层，现在能做到生成30，但pp速度降到250左右了。先这样跑着吧。

yesen19771004

@terry 是呀。在想着弄3090 24G来跑Qwen3.6 27B呢。希望论坛中多一些讨论，回头让我的AI来学习。

yesen19771004

下面是我的软硬件配置：

┌───────────┬─────────────────────────────────────────────────────────────────────┐
│ 组件 │ 型号/规格 │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ CPU │ AMD Ryzen 7 8845HS（8核16线程，最大睿频5.14GHz，含Radeon 780M核显） │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ GPU │ AMD Radeon 780M（集成显卡，HawkPoint1） │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 内存 │ 64GiB DDR（BIOS设置16G专用显存，运行llama.cpp+Qwen3.6 35b后，约23GiB空闲） │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 硬盘 │ SK海力士 HFS512GEJ9X115N（512GB NVMe SSD） │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 主板/整机 │ GMKtec NucBox K8 Plus（迷你主机） │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 操作系统 │ Ubuntu（Kernel 7.0.0-15-generic，x86_64） │
└───────────┴─────────────────────────────────────────────────────────────────────┘

用vulkan在llama.cpp上跑Qwen3.6 35b，设置了100K上下文（因为太大了，后面很可能跑不动，小一点轻量任务反而更友好，agent到限额也会auto compact，中型任务也可以跑跑），开了flash attention, KV设置成q4_0，40层都放到了显卡上。

llama bench结果pp2048（预填充） 304.49 ± 1.32，tg128（生成） 22.22 ± 0.08

目前在agent里勉强是可以用的。有没有大佬知道如何能再优化优化？试过Qwen3.6的MTP在llama.cpp上搞不通。

抡锤者

yesen19771004

帖子