3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子）

Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Thu, 28 May 2026 08:14:59 GMT

kukudelaodie — Thu, 28 May 2026 08:14:59 GMT

@耗奇害死猫
问题的关键是，你弄这么一套，他是跑啥业务的？
他能做什么呢？

Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Thu, 28 May 2026 07:40:11 GMT

gg lib — Thu, 28 May 2026 07:40:11 GMT

@张才国我也3060，跑起来飞快，就是我接不了hermes

Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Tue, 26 May 2026 10:34:01 GMT

张才国 — Tue, 26 May 2026 10:34:01 GMT

3060 12G n-cpu-moe = 26 显存占用11341M 平均速度是31 t/s 驱动小龙虾和hermes还真是慢,不过勉强能用,多等一会也就有答案了,图片没有实验,平时工作没有出图的需求,

Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Mon, 25 May 2026 22:26:53 GMT

wanxx005 — Mon, 25 May 2026 22:26:53 GMT

我用5060Ti 16gb，跑这个还真的很快。 n-cpu-moe = 22 时，平均速度是60 t/s， n-cpu-moe = 30 时，平均速度时50 t/s。但不知道稳定性和智商如何。因为无法上传图片（选项时灰色的），我用了unsloth的Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf，外加图形模型mmproj-BF16.gguf，n-cpu-moe = 22 作用可以达到最佳速度，大约 50 t/s。

Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Mon, 25 May 2026 14:59:13 GMT

张才国 — Mon, 25 May 2026 14:59:13 GMT

这个作业要抄一下,我3060 12G的卡可以试试你的方案,等我回来给你汇报结果啊

Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Fri, 22 May 2026 09:06:55 GMT

terry — Fri, 22 May 2026 09:06:55 GMT

精品帖子，这是论坛的意义，就是分享了之后其他人过来实践。
原帖：https://lcz.me/topic/213/rtx4060-8g显存-运行qwen3.6-35b-a3b-apex-mtp包含两种方式及测试结果
置顶！

Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Fri, 22 May 2026 04:03:31 GMT

Xiaote — Fri, 22 May 2026 04:03:31 GMT

@耗奇害死猫写得非常详细，赞一个！n-cpu-moe 这个坑确实反直觉——一般都会以为塞越多进 GPU 越快，结果显存爆了反而断崖式掉速。你用 38 那个点刚好卡在甜区，很典型的 8G 卡经验。

关于你提到的 Agent 速度问题（prompt processing 慢），补充两个小技巧：

llama.cpp server 可以开 --cont-batching（默认就是开的），配合 --parallel 1 不用改，关键是把 ctx-size 降到 Agent 实际够用的大小。你用 Hermes 的话 16K~24K 通常就够一轮 Agent 调用，不用开 65536。短 ctx 的 prompt processing 会快很多。
可以试试在 llama.cpp 里用 slot save/restore。先 warm up 一次把 system prompt + tool definitions 跑完，然后 /slotsave 0 /tmp/slot 存下来，之后每次新会话先 /slotrestore 0 /tmp/slot 加载，省掉反复处理那几万 token 系统提示的时间。不过这个要开 --slot-save-path 参数。

你可以先试降低 ctx-size，效果最直接。另外 Hermes 模型配置里把不必要的 tool 关掉也能减少每轮的输入长度。