<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果]]></title><description><![CDATA[<p dir="auto">跑的是这个模型<a href="https://huggingface.co/mudler/Qwen3.6-35B-A3B-APEX-MTP-GGUF" rel="nofollow ugc">Qwen3.6 35B A3B APEX-MTP</a><br />
<strong>Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf  -》13.7 GB</strong></p>
<p dir="auto">我是个刚开始研究本地部署LLM的小白，因此运行步骤和过程基于<strong>GPT5.5</strong> CHAT辅助实现。</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/661ec4f6-18db-4bbb-8250-3bf6830595c6.jpg" alt="IMG20260519150211.jpg" class=" img-fluid img-markdown" /> <img src="https://upload.lcz.me/uploads/145efed8-9081-491f-a2bd-b7c7cfeb3a38.png" alt="Snipaste_2026-05-19_15-00-32.png" class=" img-fluid img-markdown" /> <img src="https://upload.lcz.me/uploads/484d0c1a-aaae-4fc9-a1c5-21bc3e51589f.png" alt="Snipaste_2026-05-19_15-01-00.png" class=" img-fluid img-markdown" /> <img src="https://upload.lcz.me/uploads/d3b803b0-a3e1-4c78-ae7c-75ee6a40d835.png" alt="Snipaste_2026-05-19_15-03-26.png" class=" img-fluid img-markdown" /></p>
<p dir="auto">省流：</p>
<ol>
<li>台式机和USB4拓展坞都可以跑在8g显存的显卡上，MTP的速度挺快的，<strong>30+tokens/s</strong>，代码能跑到<strong>45-50</strong></li>
<li>因为显存不够，上下文prompt太多了以后处理起来很慢，拓展坞情况比我的台式机慢3-4倍</li>
</ol>
<p dir="auto">补充：</p>
<ol>
<li>台式机后续尝试了I-Compact和I-Quality，发现速度有下降，但是不明显</li>
<li>4060还是玩9B吧...跑起来还快点，当然不嫌慢，等这个慢慢跑也行（我记得特总视频也提过这一点）</li>
</ol>
<p dir="auto">以下是GPT总结的过程：</p>
<h1>Qwen3.6 35B A3B APEX-MTP 本地运行测试总结</h1>
<blockquote>
<p dir="auto">测试目标：验证 <code>Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf</code> 在本地消费级硬件上的可用性、运行效率、上下文设置、MTP 效果，以及台式机与 USB4 外接显卡笔记本之间的差异。</p>
</blockquote>
<hr />
<h2>1. 测试模型</h2>
<p dir="auto">本次测试模型：</p>
<pre><code class="language-text">Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf
</code></pre>
<p dir="auto">模型关键词：</p>
<pre><code class="language-text">Qwen3.6 35B A3B
MoE 架构
APEX 量化
MTP 单文件自投机解码
GGUF 格式
llama.cpp 运行
</code></pre>
<p dir="auto">本次测试的核心结论是：</p>
<pre><code class="language-text">该模型可以在单张 RTX 4060 8GB 上运行。
通过 CPU MoE + APEX 量化 + MTP，自建本地代码 Agent 服务是可行的。
台式机 PCIe 内置显卡明显优于笔记本 USB4 外接显卡，尤其是在长上下文 prompt processing 阶段。
</code></pre>
<hr />
<h2>2. 运行方式</h2>
<p dir="auto">最终采用的运行方式：</p>
<pre><code class="language-text">Windows 版 llama.cpp 预编译 CUDA 12.4 包
llama-server
OpenAI-compatible API
models-preset INI 配置
</code></pre>
<p dir="auto">启动方式示例：</p>
<pre><code class="language-powershell">.\llama-server.exe `
  --models-preset C:\models\preset.ini `
  --host 0.0.0.0 `
  --port 8888
</code></pre>
<p dir="auto">服务地址：</p>
<pre><code class="language-text">http://127.0.0.1:8888/v1
</code></pre>
<p dir="auto">适合接入：</p>
<pre><code class="language-text">Hermes
ASRBot
OpenAI-compatible 客户端
自写 py-llmcli
其他 Agent / IDE / CLI 工具
</code></pre>
<hr />
<h2>3. 台式机测试环境</h2>
<h3>3.1 硬件配置</h3>
<pre><code class="language-text">CPU：AMD Ryzen 7 5700X
内存：DDR4 3200 16GB × 4，共 64GB
显卡：RTX 4060 8GB
连接方式：台式机主板 PCIe 内置连接
</code></pre>
<h3>3.2 台式机 llama.cpp 预设</h3>
<pre><code class="language-ini">version = 1

[*]
parallel = 1

n-gpu-layers = 999

ctx-size = 16384
predict = 4096

flash-attn = on

cache-type-k = q8_0
cache-type-v = q8_0

threads = 8
threads-batch = 16

batch-size = 1024
ubatch-size = 512

jinja = true
reasoning = off

no-mmap = true

load-on-startup = false
stop-timeout = 10


[qwen36-apex-mtp-mini]
model = C:\models\Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf
ctx-size = 65536
load-on-startup = true

n-cpu-moe = 32

spec-type = draft-mtp
spec-draft-n-max = 3

cache-type-k-draft = q8_0
cache-type-v-draft = q8_0
</code></pre>
<h3>3.3 台式机表现</h3>
<p dir="auto">台式机表现明显更好，尤其是长 prompt 输入处理阶段。</p>
<p dir="auto">典型日志表现：</p>
<pre><code class="language-text">prompt eval time ≈ 29640 ms / 14791 tokens
prompt processing ≈ 499 tok/s
</code></pre>
<p dir="auto">生成阶段在长输出测试中也能达到较高速度：</p>
<pre><code class="language-text">eval ≈ 35～38 tok/s
MTP acceptance rate 较高时，输出体验很好
</code></pre>
<h3>3.4 台式机定位</h3>
<p dir="auto">台式机适合作为主力本地模型服务端：</p>
<pre><code class="language-text">Hermes 主力服务端
代码 Agent
OpenAI 兼容 API 服务
长上下文代码分析
RAG 问答
ASRBot 后端大模型
本地开发辅助
</code></pre>
<p dir="auto">推荐保留台式机作为主要模型服务机器。</p>
<hr />
<h2>4. 笔记本测试环境</h2>
<h3>4.1 硬件配置</h3>
<pre><code class="language-text">型号：HP 战X 2022
CPU：AMD Ryzen 7 6850HS
内存：DDR5 4800 16GB × 2，共 32GB
显卡：RTX 4060 8GB
连接方式：USB4 外接 RTX 4060
</code></pre>
<h3>4.2 笔记本 llama.cpp 预设</h3>
<pre><code class="language-ini">version = 1

[*]
parallel = 1
n-gpu-layers = 999

#ctx-size = 16384
ctx-size = 65536
predict = 8192

flash-attn = on

cache-type-k = q8_0
cache-type-v = q8_0

threads = 8
threads-batch = 16

batch-size = 1024
ubatch-size = 512

jinja = true
reasoning = off

load-on-startup = false
stop-timeout = 10


[qwen36-apex-mtp-mini]
model = C:\models\Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf
load-on-startup = true

n-cpu-moe = 30

spec-type = draft-mtp
spec-draft-n-max = 3

cache-type-k-draft = q8_0
cache-type-v-draft = q8_0
</code></pre>
<h3>4.3 笔记本表现</h3>
<p dir="auto">笔记本可以运行该模型，但长上下文和 Agent 场景明显慢于台式机。</p>
<p dir="auto">之前测试中，笔记本 USB4 外接 RTX 4060 时，长 prompt processing 大约为：</p>
<pre><code class="language-text">prompt processing ≈ 168 tok/s
</code></pre>
<p dir="auto">与台式机约 499 tok/s 相比，差距接近 3 倍。</p>
<h3>4.4 笔记本变慢的主要原因</h3>
<p dir="auto">主要不是 RTX 4060 算力本身问题，而是以下因素叠加：</p>
<pre><code class="language-text">1. USB4 eGPU 带宽和延迟弱于台式机 PCIe。
2. Qwen3.6 35B A3B 当前依赖 CPU MoE，CPU/GPU 协作频繁。
3. 6850HS 是移动端 CPU，持续功耗、散热、内存带宽不如台式机 5700X 稳定。
4. 笔记本内存为 32GB，64K 上下文 + prompt cache + CPU MoE 时余量更小。
</code></pre>
<h3>4.5 笔记本定位</h3>
<p dir="auto">笔记本适合移动测试、轻量任务，不建议作为主力 Hermes 服务端。</p>
<p dir="auto">更适合：</p>
<pre><code class="language-text">普通聊天
短上下文代码问答
轻量开发辅助
16K～32K 上下文任务
小模型或 dense 模型测试
</code></pre>
<p dir="auto">如果笔记本继续运行该 35B A3B 模型，建议更保守：</p>
<pre><code class="language-ini">ctx-size = 32768
predict = 4096
n-cpu-moe = 35
cache-type-k = q8_0
cache-type-v = q8_0
</code></pre>
<hr />
<h2>5. 关键参数理解</h2>
<h3>5.1 <code>ctx-size</code></h3>
<p dir="auto"><code>ctx-size</code> 控制上下文窗口大小。</p>
<p dir="auto">本次测试结论：</p>
<pre><code class="language-text">16K：普通问答、短代码够用。
32K：Hermes 轻量任务更合适。
64K：台式机可用，适合代码 Agent 和长上下文。
128K/262K：单张 RTX 4060 不建议默认开启。
</code></pre>
<p dir="auto">当前台式机建议：</p>
<pre><code class="language-ini">ctx-size = 65536
</code></pre>
<p dir="auto">笔记本建议：</p>
<pre><code class="language-ini">ctx-size = 32768
</code></pre>
<p dir="auto">如确实需要 64K，笔记本也可以运行，但需要接受 prompt processing 变慢。</p>
<h3>5.2 <code>predict</code></h3>
<p dir="auto"><code>predict</code> 控制最大输出 token 数。</p>
<p dir="auto">本次测试中发现：</p>
<pre><code class="language-text">predict = 4096 时速度更稳。
predict = 8192 可以输出更长内容，但响应时间会明显变长。
代码写不完时，不建议长期依赖超大 predict，而应让 Agent 分文件、分阶段输出。
</code></pre>
<p dir="auto">推荐：</p>
<pre><code class="language-ini">predict = 4096
</code></pre>
<p dir="auto">需要长代码时可临时使用：</p>
<pre><code class="language-ini">predict = 8192
</code></pre>
<p dir="auto">但最好配合任务拆分：</p>
<pre><code class="language-text">先生成 Controller
再生成 Service
再生成 Mapper
再生成测试代码
</code></pre>
<h3>5.3 <code>n-cpu-moe</code></h3>
<p dir="auto"><code>n-cpu-moe</code> 控制前 N 层 MoE 专家放在 CPU。</p>
<p dir="auto">当前测试结论：</p>
<pre><code class="language-text">n-cpu-moe 太低会让更多专家进 GPU，显存占用上升，但不一定更快。
显存占用从 4GB 拉到 7.4GB 后，tokens/s 反而下降到约 25 tok/s。
CPU MoE 在 RTX 4060 8GB 上不是坏事，反而是该模型能跑快的关键。
</code></pre>
<p dir="auto">台式机当前推荐：</p>
<pre><code class="language-ini">n-cpu-moe = 32
</code></pre>
<p dir="auto">笔记本建议：</p>
<pre><code class="language-ini">n-cpu-moe = 35
</code></pre>
<p dir="auto">如果某个配置显存接近 7.5GB 且速度下降，应回退到更高的 <code>n-cpu-moe</code>。</p>
<h3>5.4 MTP</h3>
<p dir="auto">MTP 参数：</p>
<pre><code class="language-ini">spec-type = draft-mtp
spec-draft-n-max = 3
</code></pre>
<p dir="auto">本次测试中，MTP 有明显收益。日志中出现过较高 draft acceptance rate，例如：</p>
<pre><code class="language-text">draft acceptance rate ≈ 0.64～0.88
</code></pre>
<p dir="auto">判断：</p>
<pre><code class="language-text">MTP 生效。
MTP 对输出速度有帮助。
不建议关闭。
</code></pre>
<h3>5.5 KV Cache</h3>
<p dir="auto">当前使用：</p>
<pre><code class="language-ini">cache-type-k = q8_0
cache-type-v = q8_0
cache-type-k-draft = q8_0
cache-type-v-draft = q8_0
</code></pre>
<p dir="auto">测试结论：</p>
<pre><code class="language-text">q8_0 稳定性和质量更好。
如果 64K 上下文显存压力较大，可以考虑 q4_0。
当前台式机使用 q8_0 可接受。
</code></pre>
<p dir="auto">如果显存不足，可改成：</p>
<pre><code class="language-ini">cache-type-k = q4_0
cache-type-v = q4_0
cache-type-k-draft = q4_0
cache-type-v-draft = q4_0
</code></pre>
<h3>5.6 <code>parallel</code></h3>
<p dir="auto">当前设置：</p>
<pre><code class="language-ini">parallel = 1
</code></pre>
<p dir="auto">本地个人使用和代码 Agent 推荐保持 1。</p>
<p dir="auto">原因：</p>
<pre><code class="language-text">减少 KV cache 压力。
减少并发 slot 占用。
更适合长上下文和长输出。
</code></pre>
<hr />
<h2>6. Hermes 接入结论</h2>
<p dir="auto">该模型适合接入 Hermes，但需要注意上下文管理。</p>
<h3>6.1 接入地址</h3>
<pre><code class="language-text">base_url = http://127.0.0.1:8888/v1
model = qwen36-apex-mtp-mini
api_key = local
</code></pre>
<h3>6.2 Hermes 推荐使用方式</h3>
<p dir="auto">推荐：</p>
<pre><code class="language-text">台式机作为 Hermes 主力服务端。
64K context。
predict 4096。
按任务分阶段生成代码。
控制工具输出长度。
不要让 Hermes 每轮塞入过多日志和无关文件。
</code></pre>
<h3>6.3 Hermes 性能瓶颈</h3>
<p dir="auto">Hermes 场景下最主要的瓶颈不是输出速度，而是 prompt processing。</p>
<p dir="auto">当 Hermes 每轮发送 20K～30K tokens 时，即便模型生成速度很快，也会在每轮开始前等待较长时间。</p>
<p dir="auto">优化重点：</p>
<pre><code class="language-text">减少每轮 prompt tokens 数量。
提高 prompt cache/LCP 命中率。
减少工具输出长度。
避免把完整日志、完整项目、无关历史反复塞回上下文。
</code></pre>
<hr />
<h2>7. 台式机与笔记本分工建议</h2>
<h3>7.1 台式机</h3>
<p dir="auto">建议作为主力：</p>
<pre><code class="language-text">Qwen3.6 35B A3B APEX-MTP
64K 上下文
Hermes
代码 Agent
ASRBot 后端模型
RAG / 文档问答
</code></pre>
<p dir="auto">推荐配置：</p>
<pre><code class="language-text">ctx-size = 65536
predict = 4096
n-cpu-moe = 32
parallel = 1
KV = q8_0
MTP = draft-mtp
</code></pre>
<h3>7.2 笔记本</h3>
<p dir="auto">建议作为移动测试或轻量环境：</p>
<pre><code class="language-text">普通聊天
轻量代码问答
短上下文任务
小模型测试
</code></pre>
<p dir="auto">推荐配置：</p>
<pre><code class="language-text">ctx-size = 32768
predict = 4096
n-cpu-moe = 35
parallel = 1
KV = q8_0
MTP = draft-mtp
</code></pre>
<p dir="auto">如果笔记本需要长期运行本地 LLM，更建议使用：</p>
<pre><code class="language-text">Qwen3.5 9B
7B / 8B / 9B dense coder 模型
能完整放进 RTX 4060 8GB 显存的模型
</code></pre>
<p dir="auto">这类模型在 USB4 eGPU 下受 CPU MoE 和链路瓶颈影响更小。</p>
<hr />
<h2>8. 最终结论</h2>
<p dir="auto">本次测试可以形成以下结论：</p>
<pre><code class="language-text">1. Qwen3.6 35B A3B APEX-MTP I-Mini 在单张 RTX 4060 8GB 上可用。
2. APEX 降低了模型体积，MTP 明显提升了输出速度。
3. CPU MoE 是该模型能在 8GB 显存上运行的关键。
4. 台式机 PCIe RTX 4060 明显优于笔记本 USB4 外接 RTX 4060。
5. Hermes / 代码 Agent / 长上下文任务应优先跑在台式机上。
6. 笔记本可以跑，但更适合轻量任务或小模型。
7. 当前台式机配置可作为本地代码 Agent 主力方案。
</code></pre>
<p dir="auto">最终推荐部署策略：</p>
<pre><code class="language-text">台式机：
Qwen3.6 35B A3B APEX-MTP I-Mini
64K context
predict 4096
作为 Hermes / 代码 Agent 主力服务端

笔记本：
优先使用 16K～32K context
或改用 Qwen3.5 9B 等更小 dense 模型
作为移动轻量环境
</code></pre>
<hr />
<h2>9. 后续可继续优化方向</h2>
<p dir="auto">后续如果继续优化，可以关注：</p>
<pre><code class="language-text">1. 对比 n-cpu-moe = 32 / 35 的实际 tok/s 和显存占用。
2. 测试 ctx-size = 32768 与 65536 在 Hermes 中的实际等待差异。
3. 测试 predict = 4096 与 8192 对代码任务完成度的影响。
4. 优化 Hermes 工具输出和上下文压缩策略。
5. 为台式机和笔记本分别维护独立 preset.ini。
6. 尝试 Qwen3.5 9B dense 模型作为笔记本轻量主力。
7. 后续如果升级 24GB 显卡，可重新评估 Qwen3.6 35B A3B 更高量化版本或更少 CPU MoE。
</code></pre>
]]></description><link>https://lcz.me/topic/213/rtx4060-8g显存-运行qwen3.6-35b-a3b-apex-mtp包含两种方式及测试结果</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 06:08:18 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/213.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 19 May 2026 09:43:51 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果 on Tue, 19 May 2026 16:38:30 GMT]]></title><description><![CDATA[<p dir="auto">卧槽，服了！！这几天晚上回来试试。</p>
]]></description><link>https://lcz.me/post/2677</link><guid isPermaLink="true">https://lcz.me/post/2677</guid><dc:creator><![CDATA[Tiger]]></dc:creator><pubDate>Tue, 19 May 2026 16:38:30 GMT</pubDate></item><item><title><![CDATA[Reply to 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果 on Tue, 19 May 2026 15:46:18 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tide" aria-label="Profile: Tide">@<bdi>Tide</bdi></a> 找对方向你也可以的，这两天正好赶上新技术红利了，你也可以试试这个模型</p>
]]></description><link>https://lcz.me/post/2665</link><guid isPermaLink="true">https://lcz.me/post/2665</guid><dc:creator><![CDATA[ezios]]></dc:creator><pubDate>Tue, 19 May 2026 15:46:18 GMT</pubDate></item><item><title><![CDATA[Reply to 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果 on Tue, 19 May 2026 15:43:02 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f601.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--grin" style="height:23px;width:auto;vertical-align:middle" title="😁" alt="😁" /></p>
]]></description><link>https://lcz.me/post/2662</link><guid isPermaLink="true">https://lcz.me/post/2662</guid><dc:creator><![CDATA[ezios]]></dc:creator><pubDate>Tue, 19 May 2026 15:43:02 GMT</pubDate></item><item><title><![CDATA[Reply to 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果 on Tue, 19 May 2026 12:01:50 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/ezios" aria-label="Profile: ezios">@<bdi>ezios</bdi></a> 大神,膜拜.8G都跑起了35b a3b<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title=":+1:" alt="👍" /></p>
]]></description><link>https://lcz.me/post/2599</link><guid isPermaLink="true">https://lcz.me/post/2599</guid><dc:creator><![CDATA[Tide]]></dc:creator><pubDate>Tue, 19 May 2026 12:01:50 GMT</pubDate></item><item><title><![CDATA[Reply to 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果 on Tue, 19 May 2026 11:46:56 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/ezios" aria-label="Profile: ezios">@<bdi>ezios</bdi></a> 这要是勉强，我会置顶吗？</p>
]]></description><link>https://lcz.me/post/2590</link><guid isPermaLink="true">https://lcz.me/post/2590</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Tue, 19 May 2026 11:46:56 GMT</pubDate></item><item><title><![CDATA[Reply to 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果 on Tue, 19 May 2026 10:29:19 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 哈哈<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--joy" style="height:23px;width:auto;vertical-align:middle" title="😂" alt="😂" />手里只有4060，每天看视频想办法，不过也就勉强一乐，还是得上大显存</p>
]]></description><link>https://lcz.me/post/2582</link><guid isPermaLink="true">https://lcz.me/post/2582</guid><dc:creator><![CDATA[ezios]]></dc:creator><pubDate>Tue, 19 May 2026 10:29:19 GMT</pubDate></item><item><title><![CDATA[Reply to 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果 on Tue, 19 May 2026 10:17:42 GMT]]></title><description><![CDATA[<p dir="auto">我怎么感觉我被啪啪打脸，4060 8G还能玩。</p>
]]></description><link>https://lcz.me/post/2578</link><guid isPermaLink="true">https://lcz.me/post/2578</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Tue, 19 May 2026 10:17:42 GMT</pubDate></item><item><title><![CDATA[Reply to 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果 on Tue, 19 May 2026 10:05:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/ezios" aria-label="Profile: ezios">@<bdi>ezios</bdi></a> 厉害了！4060 8G跑起35B A3B MTP模型，这个成果对同样用低显存卡入门的玩家很有参考价值！</p>
<p dir="auto">想请教几个数据点：</p>
<ol>
<li>上下文长度能开到多少？8G显存跑13.7GB的GGUF，应该是走mmap内存映射、系统内存和显存协同工作吧？</li>
<li>生成速度大概多少t/s？35B A3B虽然总参数量大，但每次只激活约3.5B参数，推理速度应该不会太慢</li>
<li>Hermes Agent接这个模型，指令跟随和工具调用表现怎么样？</li>
</ol>
<p dir="auto">35B A3B这个MoE架构其实对低显存场景挺友好的——推理时只激活一个专家，显存压力比同尺寸稠密模型小很多。你这套4060+35B A3B的组合，可以说是8G显存的毕业配置了，期待更多实测分享！</p>
]]></description><link>https://lcz.me/post/2573</link><guid isPermaLink="true">https://lcz.me/post/2573</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Tue, 19 May 2026 10:05:09 GMT</pubDate></item><item><title><![CDATA[Reply to 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果 on Tue, 19 May 2026 09:57:12 GMT]]></title><description><![CDATA[<p dir="auto">hermes使用该模型完成的：<br />
<img src="https://upload.lcz.me/uploads/c6d56bef-e030-4bfb-98ac-a3b7a347e432.jpeg" alt="屏幕截图_19-5-2026_175554_192.168.1.10.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/2571</link><guid isPermaLink="true">https://lcz.me/post/2571</guid><dc:creator><![CDATA[ezios]]></dc:creator><pubDate>Tue, 19 May 2026 09:57:12 GMT</pubDate></item></channel></rss>