<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型]]></title><description><![CDATA[<p dir="auto">其实我早就发了这个版本。但是没人关注。是给谁的评论回复忘记了。<br />
老特新的视频我看了。很感动。这老东西也会服软。<br />
出个帖子表示对老特的认同。（他服软是对的。嘎嘎！）</p>
<p dir="auto">开篇：<br />
测试平台：CPU：i7-12700<br />
GPU：RTX 3070 8GB<br />
RAM：32G × 2<br />
系统：Windows 11<br />
推理框架：llama.cpp CUDA 12.4 通过 llama.cpp 的 CPU Offload 和 MoE 优化，可以跑起来 Qwen Qwen3.6-35B-A3B 模型。<br />
原理：Qwen3.6-35B-A3B：混合模型。35B 总参数，每次只激活约 3B。GPU 不需要一次性加载完整 35B ，再结合 llama.cpp 的：CPU Offload ；就能实现：GPU 跑注意力层、RAM 跑专家层。这也是：RTX3070 8G 成功运行 35B 的核心原因！<br />
实现目标：<br />
支持长上下文<br />
支持 Flash Attention<br />
支持多模态（视觉）<br />
支持本地网页 UI<br />
部署：<br />
1、下载 llama.cpp 【Github下载】<br />
2、安装显卡驱动，3070 N卡选择 CUDA 13.1<br />
<a href="https://developer.nvidia.com/cuda-13-1-0-download-archive" rel="nofollow ugc">https://developer.nvidia.com/cuda-13-1-0-download-archive</a><br />
3、下载模型<br />
本次使用模型：Qwen3.6-35B-A3B-UD-Q4_K_M.gguf<br />
量化格式：Q4_K_M<br />
这是目前：精度、显存、速度 综合平衡最好的格式之一。<br />
【Huggingface下载】<br />
Qwen3.6 多模态模型：必须搭配 mmproj（示例：mmproj-BF16.gguf）<br />
启动配置参数：<br />
@echo off<br />
chcp 65001 &gt;nul<br />
cd /d C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-12.4-x64</p>
<p dir="auto">llama-server.exe ^<br />
-m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^<br />
--mmproj "models\mmproj-BF16.gguf" ^<br />
-ngl 99 ^<br />
--n-cpu-moe 999 ^<br />
--flash-attn on ^<br />
--jinja ^<br />
-c 32768 ^<br />
-t 12 ^<br />
-b 512 ^<br />
-ub 128 ^<br />
--cache-type-k q4_0 ^<br />
--cache-type-v q4_0 ^<br />
--mlock ^<br />
--host 127.0.0.1 ^<br />
--port 8080</p>
<p dir="auto">pause</p>
<p dir="auto">保存*.bat 编辑后运行<br />
*\注意将上面的llama.cpp的存放路径改成你自己的，因为我是放在桌面上的，所以路径是：C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-12.4-x64 务必改成你自己的路径！<br />
部署后 127.0.0.1:8080 访问。<br />
<img src="https://upload.lcz.me/uploads/0d60666d-f581-4fc3-aa49-1481c7a017dd.jpeg" alt="c98852fa-c816-45d2-98fc-0f50feee5ec0-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/6729f98f-fb6e-430d-b1e1-8576b38a9639.jpeg" alt="d4db5368-8c7f-4e38-825d-fbd6e8b609dd-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/c36504c1-ccf9-4e08-99f0-458bc71333b7.jpeg" alt="6b19233c-d402-4675-a946-08e1164dee45-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/c4d99df4-1a38-4575-8f88-eb657b80f419.jpeg" alt="53f30ee2-714a-4854-aabc-b3ac5b1b7fc0-image.jpeg" class=" img-fluid img-markdown" /><br />
测试：编码可以跑。能处理图片。其他的拉稀中。<br />
总结：学习机小拉拉一枚。</p>
]]></description><link>https://lcz.me/topic/262/8g显存-篇-rtx3070-8g显存-成功跑-qwen3.6-35b-多模态ai大模型</link><generator>RSS for Node</generator><lastBuildDate>Sat, 06 Jun 2026 09:34:59 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/262.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 22 May 2026 15:15:10 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Thu, 28 May 2026 13:52:28 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/apple" aria-label="Profile: apple">@<bdi>apple</bdi></a> <a href="https://lcz.me/topic/299/hermes-agent-webui-%E5%8E%9F%E7%94%9F-windows-%E6%94%AF%E6%8C%81-%E8%A2%AB%E5%AE%98%E6%96%B9%E9%87%87%E7%BA%B3%E5%90%88%E5%B9%B6%E4%BB%A3%E7%A0%81%E4%BA%86./11">https://lcz.me/topic/299/hermes-agent-webui-原生-windows-支持-被官方采纳合并代码了./11</a></p>
]]></description><link>https://lcz.me/post/4062</link><guid isPermaLink="true">https://lcz.me/post/4062</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Thu, 28 May 2026 13:52:28 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Sat, 23 May 2026 19:21:29 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E7%A5%9E%E5%99%A8%E8%AF%B4" aria-label="Profile: 神器说">@<bdi>神器说</bdi></a> 居然可以搭配hermes？</p>
]]></description><link>https://lcz.me/post/3305</link><guid isPermaLink="true">https://lcz.me/post/3305</guid><dc:creator><![CDATA[apple]]></dc:creator><pubDate>Sat, 23 May 2026 19:21:29 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Sat, 23 May 2026 14:26:13 GMT]]></title><description><![CDATA[<p dir="auto">任何结构不直接分享给你一键包给大家的目的。希望大家通过我们的分享能自我搭建复合自己的结构或框架。我分享的信息最重要的部分其实是能辅助你搭建的 ai 算力。目前看 Gmini。ChatGPT 5.5 。cluade 都可以。我个人 尝试 deeskeep pro 也是可以的。只是参数 比较三个外媒大哥 稍逊。</p>
]]></description><link>https://lcz.me/post/3293</link><guid isPermaLink="true">https://lcz.me/post/3293</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sat, 23 May 2026 14:26:13 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Sat, 23 May 2026 11:45:12 GMT]]></title><description><![CDATA[<p dir="auto">牛逼啊牛逼，我本来想的也是用这个A一那些去做沙雕动漫的，本来想着是用codex去做，你这样说成本就很低了。</p>
]]></description><link>https://lcz.me/post/3256</link><guid isPermaLink="true">https://lcz.me/post/3256</guid><dc:creator><![CDATA[frank lee]]></dc:creator><pubDate>Sat, 23 May 2026 11:45:12 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Sat, 23 May 2026 09:59:06 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/frank-lee" aria-label="Profile: frank-lee">@<bdi>frank-lee</bdi></a> 比如说remotion的项目，我之前用ae做mg动画，现在有了这个skill，就可以帮我自己制作MG动画，然后我又可以把这些东西放到视频里，极大节约了制作的时间。我刚才说的html，是最近流行取代md的声音，比如你可以找一下归藏他们的技能，都做得特别好看。关键词html-anything。</p>
]]></description><link>https://lcz.me/post/3246</link><guid isPermaLink="true">https://lcz.me/post/3246</guid><dc:creator><![CDATA[神器说]]></dc:creator><pubDate>Sat, 23 May 2026 09:59:06 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Sat, 23 May 2026 09:02:45 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E7%A5%9E%E5%99%A8%E8%AF%B4" aria-label="Profile: 神器说">@<bdi>神器说</bdi></a> 能不能具体说一下或者发个帖子。我看别人用codex 已经实现审批画面有无畸形了</p>
]]></description><link>https://lcz.me/post/3241</link><guid isPermaLink="true">https://lcz.me/post/3241</guid><dc:creator><![CDATA[frank lee]]></dc:creator><pubDate>Sat, 23 May 2026 09:02:45 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Sat, 23 May 2026 08:29:18 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/frank-lee" aria-label="Profile: frank-lee">@<bdi>frank-lee</bdi></a> 需要做一些动画类型的东西，自从有了做html的东西之后，可以拓展的事情很多了。</p>
]]></description><link>https://lcz.me/post/3239</link><guid isPermaLink="true">https://lcz.me/post/3239</guid><dc:creator><![CDATA[神器说]]></dc:creator><pubDate>Sat, 23 May 2026 08:29:18 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Sat, 23 May 2026 07:08:22 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E7%A5%9E%E5%99%A8%E8%AF%B4" aria-label="Profile: 神器说">@<bdi>神器说</bdi></a> 有点好奇你们拿这些模型做什么事情。我只能用来提醒我今天干什么，感觉挺笨的，什么都做不了</p>
]]></description><link>https://lcz.me/post/3227</link><guid isPermaLink="true">https://lcz.me/post/3227</guid><dc:creator><![CDATA[frank lee]]></dc:creator><pubDate>Sat, 23 May 2026 07:08:22 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Sat, 23 May 2026 06:36:07 GMT]]></title><description><![CDATA[<p dir="auto">我在4070的8g显存笔记本上成功跑起来了 35t/s的速度，效果还可以。关键是可以搭配hermes成功执行多种任务。<br />
<img src="https://upload.lcz.me/uploads/c907c194-1add-4c25-a4b4-40b3abc12d39.jpeg" alt="68d6838e-432d-4077-a6f8-9a9dfe028906-image.jpeg" class=" img-fluid img-markdown" /><br />
自己稍微调整了一下启动的参数，在32g内存里面较为流畅的运行了。</p>
]]></description><link>https://lcz.me/post/3223</link><guid isPermaLink="true">https://lcz.me/post/3223</guid><dc:creator><![CDATA[神器说]]></dc:creator><pubDate>Sat, 23 May 2026 06:36:07 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Fri, 22 May 2026 19:59:56 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/frank-lee" aria-label="Profile: frank-lee">@<bdi>frank-lee</bdi></a> 是的。我又没有Windows。</p>
]]></description><link>https://lcz.me/post/3166</link><guid isPermaLink="true">https://lcz.me/post/3166</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Fri, 22 May 2026 19:59:56 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Fri, 22 May 2026 16:18:54 GMT]]></title><description><![CDATA[<p dir="auto">你这个和零度解说配置一样</p>
]]></description><link>https://lcz.me/post/3147</link><guid isPermaLink="true">https://lcz.me/post/3147</guid><dc:creator><![CDATA[frank lee]]></dc:creator><pubDate>Fri, 22 May 2026 16:18:54 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Fri, 22 May 2026 16:10:28 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/ezios" aria-label="Profile: ezios">@<bdi>ezios</bdi></a> 我不需要学习机的配置。就是发着玩的。这个小拉拉 实际应用没有任何意义。或者直白点就是 8G 就是没什么意义。我的任意项目它都是跑不了的。</p>
]]></description><link>https://lcz.me/post/3144</link><guid isPermaLink="true">https://lcz.me/post/3144</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Fri, 22 May 2026 16:10:28 GMT</pubDate></item><item><title><![CDATA[Reply to 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型 on Fri, 22 May 2026 16:05:11 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title="👍" alt="👍" />，你试试我的帖子里面的apex mtp模型，速度还能提升</p>
]]></description><link>https://lcz.me/post/3141</link><guid isPermaLink="true">https://lcz.me/post/3141</guid><dc:creator><![CDATA[ezios]]></dc:creator><pubDate>Fri, 22 May 2026 16:05:11 GMT</pubDate></item></channel></rss>