<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台]]></title><description><![CDATA[<p dir="auto">宝藏论坛啊！来晚了！</p>
<p dir="auto">今天先打点文字，改天再修改放图片。</p>
<p dir="auto">本地生产力平台替代Claude Code，跑代码任务。<br />
工作流是Codex作为大脑和我一起讨论方案生成ticket，再给worker落地。本地LLM就扮演worker。</p>
<p dir="auto">这套硬件缝合了我2016年的平台，再加上某鱼买的P40和朋友送的2080Ti，结合多年软硬件摸索经验实现的。测试了Qwen3.6和Gemma4的几个版本，最终选定MoE的Qwen3.6 35B A3B Q5 MTP，目前性能可以做到45-60左右的tps，上下文开到128k。</p>
<p dir="auto">等到电脑上分享一些截图和踩过的坑</p>
]]></description><link>https://lcz.me/topic/493/双卡缝合怪-x99平台-p40-2080ti的本地生产力平台</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 20:58:52 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/493.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 09 Jun 2026 13:39:58 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台 on Wed, 10 Jun 2026 09:40:34 GMT]]></title><description><![CDATA[<h1>缝合怪本地 LLM 折腾记：X99 + RTX 2080 Ti + Tesla P40</h1>
<p dir="auto">这台"缝合怪"是自己以前的老硬件东平西凑来的，记录一下踩过的坑和目前的状态，供有类似想法的朋友参考。</p>
<hr />
<h2>遇到的坑和痛点</h2>
<h4><strong>1. X99 平台 + P40 的 BIOS 启动问题</strong></h4>
<p dir="auto">X99 是个年代久远、脾气刁钻的平台。P40 作为纯计算卡，没有视频输出，但插上之后会被主板优先识别，导致系统启动时卡在 BIOS 画面，显示器一片黑。</p>
<p dir="auto">最终解决方案是通过降低 P40 所在 PCIe 通道的启动优先级，强制 P40 晚于 2080 Ti 完成初始化，才彻底解决这个问题。过程中试了很多方法，这条路不太直观，网上资料也零散。</p>
<h4><strong>2. 温度与噪音</strong></h4>
<p dir="auto">目前是冬天，情况还算可控。但可以预见夏天会是另一番煎熬。</p>
<p dir="auto">P40 原装被动散热，没有风扇，长时间推理温度会飙升。解决方案是拆下 Titan Xp 的涡轮风扇移植到 P40 上，引出风扇控制线接到主板风扇针脚，再通过软件 root 风扇控制逻辑，在管理面板里配置了基于温度的自动调速方案。目前运行稳定，但整机噪音在高负载下依然可观。</p>
<h4><strong>3. Qwen 3.6 35B A3B MoE 的稳定性问题</strong></h4>
<p dir="auto">Qwen 3.6 35B A3B 是 MoE 架构，active 参数只有约 3.6B，输出速度快（实测约 <code>41 tok/s</code> decode），在缝合怪上跑起来性价比不错。</p>
<p dir="auto">但跟同量级的 27B Dense 模型相比，它在长上下文下的 instruction following 稳定性较差，容易出现 thinking loop 和工具调用格式偏移。只要外部有足够强的约束框架（harness）控制任务边界和输出格式，用来做本地 agentic coding 还是完全可用的。没有约束的情况下，复杂任务的可靠性会明显下降。</p>
<h4><strong>4. 128k 上下文不够用</strong></h4>
<p dir="auto">128k 的上下文窗口在单 session 多轮代码修改的场景下远远不够。一旦触发上下文压缩，prefill 阶段需要重新处理大量 token，100k 冷启动实测 TTFT 约 428 秒，压缩期间 decode 速度也会从正常的 41 tok/s 大幅下降。这段等待体验非常差，是目前整个方案最大的短板。</p>
<hr />
<h2>下一步打算</h2>
<p dir="auto">缝合怪作为过渡方案已经验证了本地 LLM 的可行性，但多卡异构带来的复杂度和性能瓶颈越来越明显。</p>
<p dir="auto">目前倾向于等 Apple M5 Ultra。如果真的像传闻里的192GB 统一内存 + 约 1228 GB/s 内存带宽，可以直接跑 70B 以上的 Dense 模型而不需要多卡拼接，省去异构平台的所有麻烦。相比继续在 PC 平台上堆显卡，M5 Ultra 的性价比和可维护性更有吸引力。</p>
<p dir="auto">当然如果近期有合适的显卡升级机会也不排除，但长期方向应该是统一内存架构。</p>
<hr />
<p dir="auto"><em>硬件：X99 + RTX 2080 Ti 11GB + Tesla P40 24GB | 推理框架：llama.cpp build 9528 | 主力模型：Qwen 3.6 35B A3B MoE Q5</em></p>
]]></description><link>https://lcz.me/post/6110</link><guid isPermaLink="true">https://lcz.me/post/6110</guid><dc:creator><![CDATA[Miemie Y]]></dc:creator><pubDate>Wed, 10 Jun 2026 09:40:34 GMT</pubDate></item><item><title><![CDATA[Reply to 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台 on Wed, 10 Jun 2026 09:29:20 GMT]]></title><description><![CDATA[<hr />
<h2>6月10日更新</h2>
<h4>电脑配置</h4>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>项目</th>
<th>配置</th>
</tr>
</thead>
<tbody>
<tr>
<td>主机</td>
<td>Ubuntu 本地 LLM 主机 <code>llm</code></td>
</tr>
<tr>
<td>OS</td>
<td>Ubuntu 22.04.5 LTS</td>
</tr>
<tr>
<td>Kernel</td>
<td>Linux 5.15.0-174-generic</td>
</tr>
<tr>
<td>CPU</td>
<td>Intel Core i7-6850K @ 3.60GHz</td>
</tr>
<tr>
<td>CPU 规格</td>
<td>6 核 / 12 线程</td>
</tr>
<tr>
<td>内存</td>
<td>约 157 GiB RAM</td>
</tr>
<tr>
<td>Swap</td>
<td>4 GiB <code>/swap.img</code></td>
</tr>
<tr>
<td>系统盘</td>
<td>Samsung NVMe 512GB，实际约 476.9GB</td>
</tr>
<tr>
<td>GPU0</td>
<td>NVIDIA GeForce RTX 2080 Ti</td>
</tr>
<tr>
<td>GPU0 显存</td>
<td>11,264 MiB</td>
</tr>
<tr>
<td>GPU1</td>
<td>NVIDIA Tesla P40</td>
</tr>
<tr>
<td>GPU1 显存</td>
<td>24,576 MiB</td>
</tr>
<tr>
<td>NVIDIA Driver</td>
<td>535.288.01</td>
</tr>
<tr>
<td>CUDA Runtime</td>
<td>12.2</td>
</tr>
<tr>
<td>nvcc</td>
<td>CUDA 11.5</td>
</tr>
<tr>
<td>llama.cpp</td>
<td>build 9528</td>
</tr>
<tr>
<td>PCIe 约束</td>
<td>P40 当前按 Gen1 运行，属于已知硬件约束</td>
</tr>
</tbody>
</table>
<h4>Llama cpp启动参数</h4>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>项目</th>
<th>值</th>
</tr>
</thead>
<tbody>
<tr>
<td>模型</td>
<td>Qwen3.6-35B-A3B-UD-MTP-Q5_K_XL.gguf</td>
</tr>
<tr>
<td>上下文</td>
<td><code>131072</code></td>
</tr>
<tr>
<td>KV Cache</td>
<td><code>q8_0 / q8_0</code></td>
</tr>
<tr>
<td>Tensor split</td>
<td><code>1.3,2</code></td>
</tr>
<tr>
<td>Split mode</td>
<td><code>layer</code></td>
</tr>
<tr>
<td>Main GPU</td>
<td><code>0</code></td>
</tr>
<tr>
<td>GPU layers</td>
<td><code>99</code></td>
</tr>
<tr>
<td>MTP</td>
<td><code>draft-mtp</code></td>
</tr>
<tr>
<td>Draft tokens</td>
<td><code>3</code></td>
</tr>
<tr>
<td>Reasoning</td>
<td><code>on</code></td>
</tr>
</tbody>
</table>
<h3>100k Context Cold Start Testing</h3>
<h4>Prefilling</h4>
<p dir="auto"><img src="https://upload.lcz.me/uploads/97799972-49d7-40ab-a5ad-88e1ed4dd60d.jpeg" alt="d36cecdd-e441-4a2e-b71c-bea3859d43c6-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/154a16cc-6438-4ec7-8fca-c74a7a99363d.jpeg" alt="f84244af-6a42-4c17-9ba0-fe90d88b3928-image.jpeg" class=" img-fluid img-markdown" /></p>
<h4>Generating</h4>
<p dir="auto"><img src="https://upload.lcz.me/uploads/98f45c16-37fa-43d8-b0d0-50d2c2c36420.jpeg" alt="7b614c50-d543-4365-9c14-4e496a827569-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/4cc0326e-8c10-4ac6-af43-32da1400f16d.jpeg" alt="a25ed3aa-6627-4e16-8077-cf3527918dba-image.jpeg" class=" img-fluid img-markdown" /></p>
<h4>Results</h4>
<h2><img src="https://upload.lcz.me/uploads/ca3ba604-6869-4a3c-bd4d-5adcb3e9a26e.jpeg" alt="c1a21b2f-a728-47cc-b9e9-0360029c1b87-image.jpeg" class=" img-fluid img-markdown" /></h2>
<p dir="auto">从测试结果可以看到，100k的上下文Prefill平均速度大概是 <code>234 tok/s</code>，thinking和content都能到 <code>40+ tok/s</code>，如果上下文小的话能到 <code>55 tok/s</code>。</p>
]]></description><link>https://lcz.me/post/6107</link><guid isPermaLink="true">https://lcz.me/post/6107</guid><dc:creator><![CDATA[Miemie Y]]></dc:creator><pubDate>Wed, 10 Jun 2026 09:29:20 GMT</pubDate></item><item><title><![CDATA[Reply to 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台 on Wed, 10 Jun 2026 09:10:01 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/soop-ladios" aria-label="Profile: soop-ladios">@<bdi>soop-ladios</bdi></a> <a href="/post/6022">说</a>:</p>
<p dir="auto">2080 ti + P40, 可以跑Qwen 3.6 27B Q4量化了</p>
</blockquote>
<p dir="auto">我跑的是Q5，Q4可能还能快一些</p>
]]></description><link>https://lcz.me/post/6106</link><guid isPermaLink="true">https://lcz.me/post/6106</guid><dc:creator><![CDATA[Miemie Y]]></dc:creator><pubDate>Wed, 10 Jun 2026 09:10:01 GMT</pubDate></item><item><title><![CDATA[Reply to 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台 on Wed, 10 Jun 2026 08:53:35 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> <a href="/post/6019">说</a>:</p>
<p dir="auto">2080Ti已经有帖子测试过了，跑Qwen3.6 35B A3B完全没问题，这玩意跑Hermes也能跑，也能做些简单小功能，但我感觉这模型不行，我也用过，我觉得比较蠢，指令执行较差。不过有人说好用，见仁见智吧。</p>
</blockquote>
<p dir="auto">是的锤哥，工具调用明显不如dense的27B智能，所以要把protocol写得非常清楚才行</p>
]]></description><link>https://lcz.me/post/6102</link><guid isPermaLink="true">https://lcz.me/post/6102</guid><dc:creator><![CDATA[Miemie Y]]></dc:creator><pubDate>Wed, 10 Jun 2026 08:53:35 GMT</pubDate></item><item><title><![CDATA[Reply to 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台 on Tue, 09 Jun 2026 22:14:16 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/miemie-y" aria-label="Profile: Miemie-Y">@<bdi>Miemie-Y</bdi></a> 你这个X99+P40+2080Ti的搭配很有想法，45-60 tps跑Qwen3.6 35B A3B在128K上下文下其实已经相当不错了，硬件利用率很高。</p>
<p dir="auto">关于terry说这个模型"比较蠢"——其实35B A3B的MoE结构确实是典型的"广度优先"型模型，指令跟随和复杂推理不如同尺寸的Dense模型（比如27B Q4_K_M）。但它的优势在于：35B的参数量+激活只有3B，KV cache占用小，128K上下文在2080Ti的12G上能跑得动，这是Dense模型做不到的。</p>
<p dir="auto">用在Codex worker角色上，其实这个选择挺合理的——worker主要是把ticket翻译成具体操作，不需要太强的推理能力，反而需要上下文长、生成速度快的特性。如果觉得指令执行不够稳，可以试试在system prompt里强调"严格按照ticket执行，不要擅自做判断"，MoE模型在严格指令约束下表现会好很多。</p>
<p dir="auto">期待你后续的截图分享。</p>
]]></description><link>https://lcz.me/post/6040</link><guid isPermaLink="true">https://lcz.me/post/6040</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Tue, 09 Jun 2026 22:14:16 GMT</pubDate></item><item><title><![CDATA[Reply to 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台 on Tue, 09 Jun 2026 15:02:32 GMT]]></title><description><![CDATA[<p dir="auto">2080 ti + P40, 可以跑Qwen 3.6 27B Q4量化了</p>
]]></description><link>https://lcz.me/post/6022</link><guid isPermaLink="true">https://lcz.me/post/6022</guid><dc:creator><![CDATA[soop ladios]]></dc:creator><pubDate>Tue, 09 Jun 2026 15:02:32 GMT</pubDate></item><item><title><![CDATA[Reply to 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台 on Tue, 09 Jun 2026 15:09:02 GMT]]></title><description><![CDATA[<p dir="auto">2080Ti已经有帖子测试过了，跑Qwen3.6 35B A3B完全没问题，这玩意跑Hermes也能跑，也能做些简单小功能，但我感觉这模型不行，我也用过，我觉得比较蠢，指令执行较差。不过有人说好用，见仁见智吧。</p>
]]></description><link>https://lcz.me/post/6019</link><guid isPermaLink="true">https://lcz.me/post/6019</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Tue, 09 Jun 2026 15:09:02 GMT</pubDate></item></channel></rss>