@VS-Studio 很正常,我的amd小主机,780m跑他都有30多 t/s。
yesen19771004
-
Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图,生成网页。 -
用3090如果只跑llm, 平均一个月用多少kwh 的电?好像比订阅的费用还要贵@mankit-fu 其实opencode go还是在按token打折卖,并不是原来那种计算请求次数的方式。有人算过,opencode的deepseek v4 flash相当于官方api价格的8折,所以如果你配了机器不多用,机器配置的费用就白瞎了,如果你配了机器用得很多,肯定是比coding plan划算的。当然,你这个电费是有点高的。如果你用量不大,一天干不过1000万token,搞个coding plan算了。
-
AMD 780M小主机,64G内存跑Qwen 3.6 35B,需要优化建议。@张老师 跑模型就没有安静的。GPU总是会占满,非常吵闹。我的小主机那个小风扇也会有点吵,如果是涡轮风扇得吵死。非放到单独的房间不可。不过24G内存我也担心有点不够,64K上下文,也让人担心。过一个月想配一台像样的主机,现在逛论坛,看视频,多学习,多交流,争取到时候能找到一个甜点配置。
-
4090 48G+Ubuntu26.04装好了,下一步Hermes还是comfyuiHermes要求很低,随便搞个小机器都可以跑,只要小机器可以7*24小时开机就没问题。搞个云主机也是可以的。云主机还可以快照备份,也是不错的选择。不然弄个软路由的机器,甚至raspberry pi这样的小机器也一样跑。我就用的是一台minisforum的小主机。
-
AMD 780M小主机,64G内存跑Qwen 3.6 35B,需要优化建议。@terry 编译了支持mtp的llama.cpp分支,跑起了mtp,可以加载3层,现在能做到生成30,但pp速度降到250左右了。先这样跑着吧。
-
AMD 780M小主机,64G内存跑Qwen 3.6 35B,需要优化建议。@terry 是呀。在想着弄3090 24G来跑Qwen3.6 27B呢。希望论坛中多一些讨论,回头让我的AI来学习。
-
买了2张5060Ti,谁能跑最便宜的Qwen 27B?@Tide 上下文64K有点不够,128K就很棒。不过估计再几个月,用V4架构的新的小模型出来,上下文就足够大了。
-
AMD 780M小主机,64G内存跑Qwen 3.6 35B,需要优化建议。下面是我的软硬件配置:
┌───────────┬─────────────────────────────────────────────────────────────────────┐
│ 组件 │ 型号/规格 │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ CPU │ AMD Ryzen 7 8845HS(8核16线程,最大睿频5.14GHz,含Radeon 780M核显) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ GPU │ AMD Radeon 780M(集成显卡,HawkPoint1) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 内存 │ 64GiB DDR(BIOS设置16G专用显存,运行llama.cpp+Qwen3.6 35b后,约23GiB空闲) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 硬盘 │ SK海力士 HFS512GEJ9X115N(512GB NVMe SSD) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 主板/整机 │ GMKtec NucBox K8 Plus(迷你主机) │
├───────────┼─────────────────────────────────────────────────────────────────────┤
│ 操作系统 │ Ubuntu(Kernel 7.0.0-15-generic,x86_64) │
└───────────┴─────────────────────────────────────────────────────────────────────┘用vulkan在llama.cpp上跑Qwen3.6 35b,设置了100K上下文(因为太大了,后面很可能跑不动,小一点轻量任务反而更友好,agent到限额也会auto compact,中型任务也可以跑跑),开了flash attention, KV设置成q4_0,40层都放到了显卡上。
llama bench结果pp2048(预填充) 304.49 ± 1.32,tg128(生成) 22.22 ± 0.08
目前在agent里勉强是可以用的。有没有大佬知道如何能再优化优化?试过Qwen3.6的MTP在llama.cpp上搞不通。