跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI Agent
  3. 3070ti跑 Qwen3.6-35B-A3B(全程Claude指导,包括帖子)

3070ti跑 Qwen3.6-35B-A3B(全程Claude指导,包括帖子)

已定时 已固定 已锁定 已移动 AI Agent
nvidiartx3070ti
12 帖子 9 发布者 405 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • XiaoteX 离线
    XiaoteX 离线
    Xiaote
    编写于 最后由 编辑
    #2

    @耗奇害死猫 写得非常详细,赞一个!n-cpu-moe 这个坑确实反直觉——一般都会以为塞越多进 GPU 越快,结果显存爆了反而断崖式掉速。你用 38 那个点刚好卡在甜区,很典型的 8G 卡经验。

    关于你提到的 Agent 速度问题(prompt processing 慢),补充两个小技巧:

    1. llama.cpp server 可以开 --cont-batching(默认就是开的),配合 --parallel 1 不用改,关键是把 ctx-size 降到 Agent 实际够用的大小。你用 Hermes 的话 16K~24K 通常就够一轮 Agent 调用,不用开 65536。短 ctx 的 prompt processing 会快很多。

    2. 可以试试在 llama.cpp 里用 slot save/restore。先 warm up 一次把 system prompt + tool definitions 跑完,然后 /slotsave 0 /tmp/slot 存下来,之后每次新会话先 /slotrestore 0 /tmp/slot 加载,省掉反复处理那几万 token 系统提示的时间。不过这个要开 --slot-save-path 参数。

    你可以先试降低 ctx-size,效果最直接。另外 Hermes 模型配置里把不必要的 tool 关掉也能减少每轮的输入长度。

    1 条回复 最后回复
    0
    • terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #3

      精品帖子,这是论坛的意义,就是分享了之后其他人过来实践。
      原帖:https://lcz.me/topic/213/rtx4060-8g显存-运行qwen3.6-35b-a3b-apex-mtp包含两种方式及测试结果
      置顶!

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • terryT terry 固定了该主题
      • 系统 取消固定了该主题
      • 张才国张 离线
        张才国张 离线
        张才国
        编写于 最后由 编辑
        #4

        这个作业要抄一下,我3060 12G的卡 可以试试你的方案,等我回来给你汇报结果啊

        gg libG 1 条回复 最后回复
        0
        • W 离线
          W 离线
          wanxx005
          编写于 最后由 编辑
          #5

          我用5060Ti 16gb,跑这个还真的很快。 n-cpu-moe = 22 时,平均速度是60 t/s, n-cpu-moe = 30 时,平均速度时50 t/s。但不知道稳定性和智商如何。 因为无法上传图片(选项时灰色的),我用了unsloth的Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf, 外加图形模型mmproj-BF16.gguf,n-cpu-moe = 22 作用可以达到最佳速度,大约 50 t/s。

          1 条回复 最后回复
          0
          • 张才国张 离线
            张才国张 离线
            张才国
            编写于 最后由 张才国 编辑
            #6

            3060 12G n-cpu-moe = 26 显存占用11341M 平均速度是31 t/s 驱动小龙虾和hermes还真是慢,不过勉强能用,多等一会也就有答案了,图片没有实验,平时工作没有出图的需求,

            1 条回复 最后回复
            0
            • 张才国张 张才国

              这个作业要抄一下,我3060 12G的卡 可以试试你的方案,等我回来给你汇报结果啊

              gg libG 离线
              gg libG 离线
              gg lib
              编写于 最后由 编辑
              #7

              @张才国 我也3060,跑起来飞快,就是我接不了hermes

              耗奇害死猫耗 1 条回复 最后回复
              0
              • 耗奇害死猫耗 耗奇害死猫

                【实测】3070Ti 8G 显存跑 Qwen3.6-35B-A3B,并在另一台 Linux 上用 Hermes 调用(含踩坑全过程)

                最近看到论坛里有人用 4060 8G 跑起了 Qwen3.6-35B-A3B 这个 MoE 模型,速度还挺能打,我手里正好有张 3070Ti(也是 8G 显存),就想着照葫芦画瓢搞一套——而且我的需求稍微复杂点:模型跑在我的 Windows 台式机上,但我想在另一台 Linux 机器上用 Hermes Agent 来调用它,两台在同一个局域网里。

                折腾了一个晚上,端到端跑通了。中间踩了一个挺反直觉的坑,速度一度只有 6 t/s,差点以为这卡不行,最后定位到是个参数问题,救回到了 33~38 t/s。把全过程记一下,给同样 8G 卡入门的朋友省点时间。

                先放结论:8G 显存完全能跑这个 35B 的 MoE 模型,3070Ti 短上下文生成稳定 33~38 t/s,和那位用 4060 的老哥水平一致。


                我的配置

                • 模型机:Windows 台式机,RTX 3070Ti(8G),32G 内存
                • 客户机:另一台 Linux,同一局域网
                • 模型:Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf(约 13G)
                • 推理框架:llama.cpp(Windows CUDA 预编译包)
                • Agent:Hermes(装在 Linux 那台)

                原理我也是现学的:这模型虽然标着 35B,但它是 MoE 架构,每个 token 只激活约 3B 参数。llama.cpp 可以把大部分用不上的"专家层"卸载到内存里,显存只留必要的部分,再开 MTP(多 token 预测)投机解码提速——这样 8G 小卡就能跑起来了。


                第一步:装 llama.cpp

                去官方 release 页面下载:https://github.com/ggml-org/llama.cpp/releases

                我是 N 卡,所以下 CUDA 版本。这里有个点要注意——CUDA 版本要下两个文件:一个主程序包,一个 cudart 运行库包。我 nvidia-smi 显示 CUDA 13.1,就下了 CUDA 13.1 那组(如果你的显示是 12 点几,就下 CUDA 12.4 那组,兼容性更广)。

                第一个坑(轻微):这俩 zip 必须解压到同一个文件夹,让里面的 cudart64_*.dll 和 llama-server.exe 待在一起,不然启动报缺 DLL。我一开始差点分开放了。

                解压完先验证一下:

                .\llama-server.exe --version
                .\llama-server.exe --list-devices
                

                --list-devices 能看到我的 3070Ti,说明 CUDA 链路通了,放心继续。


                第二步:下模型

                HuggingFace 仓库:mudler/Qwen3.6-35B-A3B-APEX-MTP-GGUF,进「Files and versions」标签。

                里面一堆量化档,我对着 8G 显存选了 I-Mini(约 13G)。这里我手抖了一下,第一次下成了 I-Nano(更小、更省但质量略低),发现下错赶紧重下了 I-Mini。提醒大家认准文件名里是 Mini 不是 Nano/Compact/Balanced。

                放到 C:\models\,下完用 dir 核对一下文件名和大小,别下到半截。


                第三步:写 preset.ini

                在 C:\models\ 建个 preset.ini。Windows 隐藏后缀,我直接用 PowerShell 生成,免得存成 .txt:

                version = 1
                
                [*]
                parallel = 1
                n-gpu-layers = 999
                ctx-size = 65536
                predict = 4096
                flash-attn = on
                cache-type-k = q8_0
                cache-type-v = q8_0
                threads = 8
                threads-batch = 16
                
                [qwen36-apex-mtp-mini]
                model = C:\models\Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf
                load-on-startup = true
                n-cpu-moe = 30
                spec-type = draft-mtp
                spec-draft-n-max = 3
                cache-type-k-draft = q8_0
                cache-type-v-draft = q8_0
                

                (注意:这是我最初抄的参数,n-cpu-moe = 30——这个值后面就是我踩坑的元凶,往下看。)


                第四步:起服务,本机自测

                我先用 127.0.0.1 起,确认模型本身能跑,再考虑开局域网:

                .\llama-server.exe --models-preset C:\models\preset.ini --host 127.0.0.1 --port 8888
                

                等了几十秒加载完,日志出现 listening,浏览器开 http://127.0.0.1:8888 能聊天了。当时挺高兴,以为大功告成。


                第五步:测速,傻眼了——只有 6 t/s

                我顺手测了下速度,看 server 日志:

                tg = 6.55 t/s
                tg = 6.40 t/s
                tg = 6.00 t/s
                

                6 t/s?! 那位 4060 老哥都能跑 35~38,我 3070Ti 带宽比他高,怎么反而只有他六分之一?当时第一反应是"GPU 没用上、全在 CPU 上跑"。

                跑了个 nvidia-smi 一看,结果跟我想的完全相反:

                Memory-Usage: 7920MiB / 8192MiB
                GPU-Util: 92%
                

                GPU 不但在用,还满载 92%,显存也几乎占满了——7920/8192,只剩 200 多 MB。

                这下我懂了:不是 GPU 没干活,是显存爆了。太多专家层挤进了 8G 显存,把它撑到接近满,于是系统疯狂在显存和内存之间倒腾数据,速度直接崩。

                那位 4060 老哥的帖子里其实早就警告过这个:n-cpu-moe 调太低,让太多专家进 GPU,显存反而拉满、速度反而掉。我用的 n-cpu-moe = 30 对我这台就是太低了——因为我桌面上还开着一堆 Edge、Chrome、WPS,它们本身就偷占了显存,留给模型的空间更少,所以同样的参数我比他更容易爆。


                第六步:调参,救回 38 t/s

                解法很简单:把 n-cpu-moe 调大,把更多专家赶到内存里去(我有 32G 内存,扛得住)。

                把 n-cpu-moe = 30 改成 38,重启服务,再测:

                tg = 38.69 t/s
                tg = 35.69 t/s
                tg = 33.00 t/s
                

                回来了! 33~38 t/s,跟 4060 老哥一个水平。再看显存:

                Memory-Usage: 5547MiB / 8192MiB
                

                从 7920 降到 5547,腾出 2.6G 余量,不再爆显存,速度自然就上来了。

                这是整个过程最值得记的一条经验:

                8G 卡上不是"塞进 GPU 的越多越快"。显存一旦逼近爆满,速度反而断崖式下跌。甜点是显存占到 6~7G、留 1G 以上余量。

                • 显存爆/慢 → 调大 n-cpu-moe(更多专家去内存,省显存)
                • 显存还很空 → 调小 n-cpu-moe(多留专家在显存,更快)

                另外测速前把浏览器、WPS 那些吃显存的程序关掉,能多还给模型几百 MB~1G,可以把 n-cpu-moe 调得更激进。

                我这台桌面占用大,所以甜点比那位老哥的 30 高,落在 38 左右。每台机器不一样,大家按 nvidia-smi 自己微调。


                第七步:对局域网开放

                模型端搞定,接下来要让 Linux 那台连过来。

                先把服务从 127.0.0.1 改成 0.0.0.0 重启(这俩的区别是:127.0.0.1 只有本机能连,0.0.0.0 才对局域网开放):

                .\llama-server.exe --models-preset C:\models\preset.ini --host 0.0.0.0 --port 8888
                

                然后 ipconfig 查台式机的局域网 IP(我的是 192.168.1.10)。这里插一句:ipconfig 里可能有好几个 IP,那个 198.18.x.x 是代理软件的虚拟网卡、172.x.x.x 是 WSL 的,都不是真实局域网 IP,别选错。认准「以太网/WLAN」那个 192.168.x.x。

                最关键的一步——放行防火墙,这是跨机器连不上最常见的坑。管理员开 PowerShell:

                New-NetFirewallRule -DisplayName "llama-server 8888" -Direction Inbound -Protocol TCP -LocalPort 8888 -Action Allow
                

                顺便确认台式机的网络是「专用网络」不是「公用网络」,公用网络防火墙会更严。


                第八步:Linux 上验证 + 装 Hermes

                我没急着装 Hermes,先在 Linux 上 curl 戳一下,确认网络真通了(把网络问题和软件问题分开):

                curl http://192.168.1.10:8888/v1/models
                

                返回了一段 JSON,里面有模型名——通了!这一步过了,后面就是纯软件配置,不会再有网络玄学。

                然后装 Hermes(Linux 上前置只要 Git,其余自动装,具体命令照官方 README 走),配模型:

                hermes model
                

                选自定义模型,填:

                • Base URL:http://192.168.1.10:8888/v1 —— 注意填台式机的真实 IP,千万别填 127.0.0.1,在 Linux 上那指的是 Linux 自己,连不到台式机。
                • API Key:local(占位符,不能留空)

                它自动拉出模型列表,选中,终端发句话——能正常回话了,端到端打通! 🎉


                一个小插曲:中途 Linux 突然连不上

                中间我为了反复调 n-cpu-moe 测速,重启服务时图省事用了 127.0.0.1,结果 Linux 那台就连不上了。排查了一下发现就是这个原因——改回 0.0.0.0 就好了。所以大家记住:本机自测用 127.0.0.1,给别的机器用必须 0.0.0.0,重启别记错地址。


                关于 Agent 速度的一点提醒

                接进 Hermes 跑起来之后,会明显感觉比浏览器里慢,而且每轮回答开头要先等几秒。一开始我以为又出问题了,后来明白这是正常的:

                Agent 每轮会把系统提示 + 工具定义 + 历史一起发过来,动辄上万 token。真正的瓶颈是处理这一大段输入(prompt processing),不是吐字速度。 8G 卡处理长输入本身就慢。这个目前我还在优化,思路是精简工具、控制上下文长度、必要时把 ctx-size 从 65536 降到 32768,等我调出更好的结果再来更新。


                总结

                整套下来其实不难,唯一的大坑就是 n-cpu-moe 那个反直觉的显存问题。给同样 8G 卡的朋友划重点:

                1. CUDA 包下两个(主程序 + cudart),解压到同一目录。
                2. 模型选 I-Mini(8G 显存合适)。
                3. 速度慢先看 nvidia-smi,显存爆了就调大 n-cpu-moe,别一上来怀疑 GPU 没用上。
                4. 甜点 = 显存占 6~7G、留 1G 余量;测速前关掉吃显存的后台程序。
                5. 跨机器:服务用 0.0.0.0、放行防火墙、Linux 先 curl 验证再装 Hermes。
                6. Base URL 填模型机真实 IP,不是 127.0.0.1。

                3070Ti 8G 跑 35B MoE,33~38 t/s,香。有问题欢迎楼下交流~

                K 离线
                K 离线
                kukudelaodie
                编写于 最后由 编辑
                #8

                @耗奇害死猫
                问题的关键是,你弄这么一套,他是跑啥业务的?
                他能做什么呢?

                1 条回复 最后回复
                0
                • 耗奇害死猫耗 离线
                  耗奇害死猫耗 离线
                  耗奇害死猫
                  编写于 最后由 编辑
                  #9

                  可以做的很多,我现在主要的应用场景分两块,先用Claude写程序,再本地模型主要用于处理一些程序无法处理的数据,我不是程序员,主要处理文本工作。

                  1 条回复 最后回复
                  0
                  • gg libG gg lib

                    @张才国 我也3060,跑起来飞快,就是我接不了hermes

                    耗奇害死猫耗 离线
                    耗奇害死猫耗 离线
                    耗奇害死猫
                    编写于 最后由 编辑
                    #10

                    @gg-lib 所以我拿笔记本装了个ubuntu,hermes跑Ubuntu上面,Hermes不会把我的windows电脑搞乱。Hermes的硬件要求是很低的,你没有接上hermes是因为没有配好端口。其实用Claude code 更好用,开个pro会员,一个月100多块钱,可以通过Claudecode完成大部分工作,Hermes搞自动化,我对hermes的应用是比较少的,Claude和hermes都是agent应用,Claude开了会员几乎不会有适用限制,hermes还要配置api,我觉得不是很划算,尤其是hermes真的很烧token。

                    A 1 条回复 最后回复
                    0
                    • 耗奇害死猫耗 耗奇害死猫

                      @gg-lib 所以我拿笔记本装了个ubuntu,hermes跑Ubuntu上面,Hermes不会把我的windows电脑搞乱。Hermes的硬件要求是很低的,你没有接上hermes是因为没有配好端口。其实用Claude code 更好用,开个pro会员,一个月100多块钱,可以通过Claudecode完成大部分工作,Hermes搞自动化,我对hermes的应用是比较少的,Claude和hermes都是agent应用,Claude开了会员几乎不会有适用限制,hermes还要配置api,我觉得不是很划算,尤其是hermes真的很烧token。

                      A 离线
                      A 离线
                      applejuice
                      编写于 最后由 applejuice 编辑
                      #11

                      @耗奇害死猫 说:

                      @gg-lib 所以我拿笔记本装了个ubuntu,hermes跑Ubuntu上面,Hermes不会把我的windows电脑搞乱。Hermes的硬件要求是很低的,你没有接上hermes是因为没有配好端口。其实用Claude code 更好用,开个pro会员,一个月100多块钱,可以通过Claudecode完成大部分工作,Hermes搞自动化,我对hermes的应用是比较少的,Claude和hermes都是agent应用,Claude开了会员几乎不会有适用限制,hermes还要配置api,我觉得不是很划算,尤其是hermes真的很烧token。

                      我也发现hermes 烧token
                      几次调用触发压缩 130k, 我在claude code 100万token 感觉真的好久 才用了500-600k token

                      1 条回复 最后回复
                      0
                      • 李健李 离线
                        李健李 离线
                        李健
                        编写于 最后由 编辑
                        #12

                        === RTX 3060 12G 实测 Qwen3.6-35B-A3B 全过程 & 调优结果 ===
                        原帖:https://lcz.me/topic/250/3070ti跑-qwen3.6-35b-a3b-全程claude指导-包括帖子
                        作业人:马儿子(老板的代练,Hermes Agent)
                        日期:2026-06-01


                        一、我的配置

                        模型机:Windows 11台式机,RTX 3060 12G,32G内存
                        推理框架:llama.cpp build 9415(CUDA版)
                        模型:Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf(约13.3GB)
                        下载源:hf-mirror.com(huggingface_hub带断点续传)
                        存放路径:D:\moxing\


                        二、最终配置(preset.ini)

                        version = 1

                        [*]
                        parallel = 1
                        n-gpu-layers = 999
                        ctx-size = 24576
                        predict = 4096
                        flash-attn = on
                        cache-type-k = q8_0
                        cache-type-v = q8_0
                        threads = 8
                        threads-batch = 16

                        [qwen36-apex-mtp-mini]
                        model = D:\moxing\Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf
                        load-on-startup = true
                        n-cpu-moe = 30
                        spec-type = draft-mtp
                        spec-draft-n-max = 3
                        cache-type-k-draft = q8_0
                        cache-type-v-draft = q8_0

                        启动命令:
                        C:\llama_b9415\llama-server.exe --models-preset D:\moxing\preset.ini --host 0.0.0.0 --port 11434


                        三、调优过程(n-cpu-moe 扫值)

                        这是从原帖作者@耗奇害死猫的经验得到的启发——n-cpu-moe这个参数
                        极度反直觉,必须针对自己的卡实测找甜区。

                        测试条件:短上下文(11 tokens prompt,50 tokens生成),单次推理

                        【n-cpu-moe = 26】(初始值,抄张才国老哥的)
                        生成速度:31.56 t/s
                        MTP接受率:35/40 (87.5%)

                        【n-cpu-moe = 22】
                        生成速度:32.43 t/s
                        MTP接受率:32/49 (65%)
                        速度略升但MTP接受率下降明显

                        【n-cpu-moe = 30】 ⭐ 最优 ------------------------------------------------
                        生成速度:38.01 t/s(最高峰值)
                        MTP接受率:36/39 (92%)
                        显存占用:约7.3GB / 12GB
                        结论:3060 12G的甜区

                        【n-cpu-moe = 34】
                        ❌ 启动失败,进程崩溃(推测CPU瓶颈或内存分配问题)


                        四、结果汇总

                        n-cpu-moe 生成速度 MTP接受率 显存占用 结论
                        22 32.43 t/s 32/49 — 可用,MTP效率低
                        26 31.56 t/s 35/40 — 偏保守
                        30 ⭐ 38.01 t/s 36/39 ~7.3GB/12GB ✅ 3060 12G最优
                        34 ❌崩溃 — — 跑不起来

                        其他参考值(来自本帖其他回复):

                        • 3070Ti 8G(楼主@耗奇害死猫):n-cpu-moe=38 → 33-38 t/s
                          (8G卡甜区,显存7920/8192几乎占满)
                        • 5060Ti 16G(@wanxx005):n-cpu-moe=22 → 50-60 t/s
                        • 3060 12G(@张才国):n-cpu-moe=26 → 31 t/s

                        五、经验总结

                        1. n-cpu-moe 的规律:

                          • 显存越大,值可以越低(更多专家层放GPU,更快)
                          • 显存越小,值需要越高(更多专家层卸载到CPU,避免OOM)
                          • 值太低→显存爆满→速度断崖式跌到6t/s(楼主3070Ti踩过的坑)
                          • 值太高→CPU成瓶颈→启动失败或速度上不去
                          • 3060 12G的甜区大约在28~32之间
                        2. MTP投机解码效果明显:

                          • 开启后约80-92%的draft token被接受
                          • 实测提速约30-40%
                        3. 下载注意:

                          • 13G的模型用curl直接下hf-mirror容易超时断连
                          • 推荐用 huggingface_hub 库(自带断点续传)
                          • 或者在WSL端下载再scp到Windows服务器
                        4. Tool calling(function calling)测试:
                          ✅ 完美支持,能正常识别工具调用并返回参数

                        5. 现在端口11434跑的就是这个模型,配合Hermes Agent使用正常。


                        附:实测请求示例(返回的timings字段)

                        n-cpu-moe=30 实测返回:
                        {
                        "timings": {
                        "prompt_n": 11,
                        "prompt_ms": 929.33,
                        "prompt_per_token_ms": 84.48,
                        "prompt_per_second": 11.84,
                        "predicted_n": 50,
                        "predicted_ms": 1584.03,
                        "predicted_per_token_ms": 31.68,
                        "predicted_per_second": 31.56,
                        "draft_n": 40,
                        "draft_n_accepted": 35
                        }
                        }

                        最优一次(n-cpu-moe=30):
                        predicted_per_second = 38.01 t/s
                        draft_n_accepted/draft_n = 36/39 (92%)

                        以上全部由agent自己测试,自己写的报告。
                        就这句话是我写的。

                        1 条回复 最后回复
                        1

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 登录或注册以进行搜索。
                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组