<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[部署llm用于写代码，构建本地项目]]></title><description><![CDATA[<p dir="auto">问下，我的笔记本mac他的显存可以给到23gb左右，我发现4bit量化的qwen 3.6 27b明显强于qwen 3.5 9b 8bit换成3.5也类似。我只有2w rmb的预算是在买个mac 64gb还是上英伟达显卡，算了装台湾人上辉达显卡还是mac，2w人民币预算。我不想折腾Claude，封号太严重了，Gemini确实生成代码质量不太高，而且客户要求隐私。</p>
]]></description><link>https://lcz.me/topic/155/部署llm用于写代码-构建本地项目</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 06:05:02 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/155.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 15 May 2026 07:49:39 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Mon, 18 May 2026 08:30:32 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E7%8E%8B%E4%B8%80%E6%B0%91" aria-label="Profile: 王一民">@<bdi>王一民</bdi></a> 最低Q4以下的不要尝试，问题太多，我踩过坑。</p>
]]></description><link>https://lcz.me/post/2335</link><guid isPermaLink="true">https://lcz.me/post/2335</guid><dc:creator><![CDATA[Vittoria Veloso]]></dc:creator><pubDate>Mon, 18 May 2026 08:30:32 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Mon, 18 May 2026 08:27:14 GMT]]></title><description><![CDATA[<p dir="auto">我可以这么搞吗，本地Hermes用本地部署的qwen 3.6 27b -4bit，然后computer use 云端的比如Gemini，财力有限不敢搞opus和chatgpt，我觉着不能让AI主导。</p>
]]></description><link>https://lcz.me/post/2334</link><guid isPermaLink="true">https://lcz.me/post/2334</guid><dc:creator><![CDATA[Vittoria Veloso]]></dc:creator><pubDate>Mon, 18 May 2026 08:27:14 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Sun, 17 May 2026 07:54:50 GMT]]></title><description><![CDATA[<p dir="auto">感謝大大，數據非常詳盡<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title=":+1:" alt="👍" /></p>
]]></description><link>https://lcz.me/post/2101</link><guid isPermaLink="true">https://lcz.me/post/2101</guid><dc:creator><![CDATA[Chang Ching-Chun]]></dc:creator><pubDate>Sun, 17 May 2026 07:54:50 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Sun, 17 May 2026 01:31:25 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E9%AB%98%E4%B9%90%E5%A4%A9" aria-label="Profile: 高乐天">@<bdi>高乐天</bdi></a> <a href="/post/1977">说</a>:</p>
<p dir="auto">编程的话还是不建议用本地模型，尤其是对接 claude code 或 open code 这类编程代理工具，prefill 的速度慢的让人无法忍受。即使上 5090 ，prefill 3000+ , 本地编程模型的水平也实在一般，即使是 qwen3.6-27B 的编程水平也只是凑乎能用而已。</p>
</blockquote>
<p dir="auto">这个说的很对啊，你有什么理由必须在本地部署编程模型呢。现在所有的小模型都算上，你本地部署就算是满血的，你也要对这些小模型做高度的限制适配，能力也就那样。就那点隐私，人家大公司我觉得才不在乎这个呢。唯一的需求就是云端没有这个模型，你偏要用。那你本地用，就回到了精度和适配上来了。搞了设备仅仅只是开始，我现在什么都没干，每次先填进100K的流程和限制文档，尤其是我用的这种越狱模型他抹除的不是你认为的限制，是真正模型中的所有限制。<br />
现在看来咱们这些消费级设备，就能干两件事事情比较靠谱：1，用显卡生成视频，2，用128G小机满血跑自定义模型。 用128G小机满血跑自定义模型,其实这个绝大数编程的人也根本用不到。</p>
]]></description><link>https://lcz.me/post/2050</link><guid isPermaLink="true">https://lcz.me/post/2050</guid><dc:creator><![CDATA[Kk Hh]]></dc:creator><pubDate>Sun, 17 May 2026 01:31:25 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Sat, 16 May 2026 12:28:10 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E7%8E%8B%E4%B8%80%E6%B0%91" aria-label="Profile: 王一民">@<bdi>王一民</bdi></a> 都是精品。</p>
]]></description><link>https://lcz.me/post/1988</link><guid isPermaLink="true">https://lcz.me/post/1988</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sat, 16 May 2026 12:28:10 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Sat, 16 May 2026 10:14:04 GMT]]></title><description><![CDATA[<p dir="auto">编程的话还是不建议用本地模型，尤其是对接 claude code 或 open code 这类编程代理工具，prefill 的速度慢的让人无法忍受。即使上 5090 ，prefill 3000+ , 本地编程模型的水平也实在一般，即使是 qwen3.6-27B 的编程水平也只是凑乎能用而已。</p>
]]></description><link>https://lcz.me/post/1977</link><guid isPermaLink="true">https://lcz.me/post/1977</guid><dc:creator><![CDATA[高乐天]]></dc:creator><pubDate>Sat, 16 May 2026 10:14:04 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Sat, 16 May 2026 08:57:27 GMT]]></title><description><![CDATA[<p dir="auto">王哥 ,回复很有深度.</p>
]]></description><link>https://lcz.me/post/1972</link><guid isPermaLink="true">https://lcz.me/post/1972</guid><dc:creator><![CDATA[mark]]></dc:creator><pubDate>Sat, 16 May 2026 08:57:27 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Sat, 16 May 2026 08:37:08 GMT]]></title><description><![CDATA[<p dir="auto">还有一点值得补充，Coding这个场景，算是对于量化比较敏感的场景。有个对于量化质量的专用参数：Mean KL Divergence。可以理解为量化后的模型和全尺寸模型的“差异”<br />
根据unsloth的数据，Qwen3.6系列的量化失真，大概是下图中绿色的点：<br />
<img src="https://upload.lcz.me/uploads/9382221d-4d10-4f7d-9daa-73a8901e29eb.jpeg" alt="39bc6a56-cad2-4c17-9d19-f6329ca673c4-image.jpeg" class=" img-fluid img-markdown" /><br />
可以理解为，Q2量化和Q6量化之间，插了一个数量级的差异。</p>
<p dir="auto">当然，严谨来讲，这个“差异”也不完全是往坏的差异。就跟你买彩票，你输错了号码也一样能中奖。<br />
但是从控制变量，生产环境的稳定性的角度，还是要以贴近全量模型为目标。</p>
]]></description><link>https://lcz.me/post/1971</link><guid isPermaLink="true">https://lcz.me/post/1971</guid><dc:creator><![CDATA[王一民]]></dc:creator><pubDate>Sat, 16 May 2026 08:37:08 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Sat, 16 May 2026 08:32:30 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/7c4ff29f-3d54-40db-8d51-e3166c1d1aca.jpeg" alt="33ff62be-3023-48bc-8f73-3e467937071b-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/4ac2f271-49c2-49c6-b9df-efd08babe538.jpeg" alt="c475a620-c85e-4f1e-b9b5-a3e1a1c23f7c-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/a0bf4cf1-3c01-4c15-add5-f696517530ee.jpeg" alt="58223ae8-1910-47dd-ad1b-ea2c87878f86-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/43460b01-522d-4dab-8397-6b6fe873b340.jpeg" alt="e0e3774c-536b-41fa-838c-d2141e8d5946-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/e0946a61-989d-4206-bbe8-aa20490215eb.jpeg" alt="1234cbeb-c8ef-4b3b-be45-cd817c651ef7-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">这个是256K TOKEN 全Q8精度的内存使用情况，用你们最爱的qwen3.6-27B，你自己参考吧。这个模型我也不知道你们为什么这么喜欢。要是编程的话，你要用Q4的话就用吧，反正模型要是一本正经的胡说八道，或者长文文本的时候丢失数据，你就会患上精度恐惧症了。当然满血大模型也有这个毛病，只要你能在程序中控制的住就行。因为是多次反复长文本交互，基本上就是精度越低毛病越多。这些128G MAC  AMD  NV的小机方案就是让你满血跑本地小模型用的，别的也没什么用。要是和这个本地满血小模型死磕了就加10000 买NV的128G机器，反正最后程序不成功你也赖不到模型。你要是说你想兼顾的话，显卡怎么也要有48G把，amd 和MAC的小机的话，  AMD 的小机基本符合你的预算。64G 和128G 的问题  ，就是别让显存成为瓶颈。显存直接卡死了你的模型和精度，GPU 慢点就慢点，至少高精度还能跑。你单线程跑64G你随意，要是多线程跑128G基本是必须，当然咱们这些丐版设备也支持不了几个并发，只是多一个并发不就是多平分了一部分成本吗。</p>
]]></description><link>https://lcz.me/post/1970</link><guid isPermaLink="true">https://lcz.me/post/1970</guid><dc:creator><![CDATA[Kk Hh]]></dc:creator><pubDate>Sat, 16 May 2026 08:32:30 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Sat, 16 May 2026 06:52:50 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E7%8E%8B%E4%B8%80%E6%B0%91" aria-label="Profile: 王一民">@<bdi>王一民</bdi></a> 这个回复有含金量。</p>
]]></description><link>https://lcz.me/post/1959</link><guid isPermaLink="true">https://lcz.me/post/1959</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sat, 16 May 2026 06:52:50 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Sat, 16 May 2026 07:48:41 GMT]]></title><description><![CDATA[<p dir="auto">如果是必须localLLM且用Claude Code工具，qwen3.6-27B，大于Q4的量化、且开满256K上下文是唯一的选择。</p>
<p dir="auto">因为Claude Code的提示词比较多，逻辑比较绕。用运行参数太少的moe模型很容易忘事。Claude Code的调用机制也没有针对极小参数的运行做优化。所以会导致很长时间的空转和纠错。</p>
<p dir="auto">确定用Qwen3.6-27B之后，可选项就很少了。<br />
1、买显存&gt;=32GB的N卡的台式机。（超预算）<br />
2、买显存&gt;=32GB的A卡的台式机。<br />
3、买M5 MAX 128GB内存的MacBook Pro 16寸（超预算）<br />
4、等M5 Ultra的 Mac Studio。（超预算）</p>
<p dir="auto">这三者各有利弊。<br />
1、32GB显存开Q5+256K上下文有点紧张。<br />
2、A卡的性能不如N卡，R9700的prefill不过千，decode大概在30+不到40。（对应的5090可以做到prefill 3000+，decode 75+）<br />
3、prefill太慢，大概700t/s（数据来自极客湾实测）只能选择16英寸版本，14寸版本散热规模不够，容易撞墙。<br />
4、目前还没上市。但可预计的prefill性能也不会有太大提升。</p>
]]></description><link>https://lcz.me/post/1957</link><guid isPermaLink="true">https://lcz.me/post/1957</guid><dc:creator><![CDATA[王一民]]></dc:creator><pubDate>Sat, 16 May 2026 07:48:41 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Fri, 15 May 2026 23:42:57 GMT]]></title><description><![CDATA[<p dir="auto">写程序，你最好考虑128G的显存方案， 64G 基本上都是刚够用，什么硬件你自己看吧,256k TOKEN 一开 ,64G 也就支持两个并发。如果你的编译器插件要支持多并发的模型运算，64G 肯定就炸了。写程序 ，你就想TOKEN长，这样精度高，但TOKEN 长了就吃显存多，然后你再想多并发显存疯狂上涨，我现在还一直处于显存恐惧症中。Prefill 不能太慢，长TOKEN 往里塞等待时间太长。<br />
<img src="https://upload.lcz.me/uploads/fe400463-7be0-4807-b0b9-f818ae8605f8.jpeg" alt="47f43f70-c276-4d05-b733-2831e94a0a69-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/1915</link><guid isPermaLink="true">https://lcz.me/post/1915</guid><dc:creator><![CDATA[Kk Hh]]></dc:creator><pubDate>Fri, 15 May 2026 23:42:57 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Fri, 15 May 2026 15:03:34 GMT]]></title><description><![CDATA[<p dir="auto">Mac好惨。俩个大佬签的斩立决。</p>
]]></description><link>https://lcz.me/post/1865</link><guid isPermaLink="true">https://lcz.me/post/1865</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Fri, 15 May 2026 15:03:34 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Fri, 15 May 2026 09:52:53 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/vittoria-veloso" aria-label="Profile: Vittoria-Veloso">@<bdi>Vittoria-Veloso</bdi></a> <a href="/post/1801">说</a>:</p>
<p dir="auto">问下，我的笔记本mac他的显存可以给到23gb左右，我发现4bit量化的qwen 3.6 27b明显强于qwen 3.5 9b 8bit换成3.5也类似。我只有2w rmb的预算是在买个mac 64gb还是上英伟达显卡，算了装台湾人上辉达显卡还是mac，2w人民币预算。我不想折腾Claude，封号太严重了，Gemini确实生成代码质量不太高，而且客户要求隐私。</p>
</blockquote>
<p dir="auto">你这个需求有2万预算绰绰有余了。目前情况下一定是上独立显卡不管是R9700还是英伟达的某个魔改卡，肯定比mac的效果好。<br />
如果羡慕claude code的效果，又不想用官方模型，可以试试这个：<a href="https://github.com/Alishahryar1/free-claude-code" rel="nofollow ugc">https://github.com/Alishahryar1/free-claude-code</a> 这个项目，把本地LLM伪装成claude code的官方网关，顶在你的本地llama.cpp之前，模拟出全功能的Opus、Sonnet、Haiku模型。你开发的客户端可以用claude code，享受全量功能和插件（包括automode也能开）。<br />
但更原生不折腾的方法也有，用trae.CN做编程，直接对接llama.cpp就是了（推荐）。</p>
]]></description><link>https://lcz.me/post/1813</link><guid isPermaLink="true">https://lcz.me/post/1813</guid><dc:creator><![CDATA[Fred]]></dc:creator><pubDate>Fri, 15 May 2026 09:52:53 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Fri, 15 May 2026 08:28:11 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/vittoria-veloso" aria-label="Profile: Vittoria-Veloso">@<bdi>Vittoria-Veloso</bdi></a> 从隐私保护和代码开发的角度来给点建议～</p>
<p dir="auto">如果20k预算，我的建议是：别买Mac，上NVIDIA卡配一台台式机。理由如下：</p>
<p dir="auto"><strong>Mac 64GB的优势：</strong></p>
<ul>
<li>统一内存，显存大，能跑更大的模型</li>
<li>开箱即用，不用折腾驱动</li>
<li>安静、省电</li>
</ul>
<p dir="auto"><strong>Mac的硬伤：</strong></p>
<ul>
<li>MLX生态的模型种类比CUDA少很多，很多新模型出来只有GGUF/CUDA版本</li>
<li>一旦跑长上下文（32K+），内存占用飙升，Mac还要兼顾系统内存，实际可用显存会大幅缩水</li>
<li>Qwen 3.6 27B INT4在Mac上推理速度尚可，但如果要跑代码补全这类实时交互场景，Mac的推理延迟比不上NVIDIA</li>
<li>如果未来需要部署代码补全服务，NVIDIA卡的vLLM部署成熟度远超MLX</li>
</ul>
<p dir="auto"><strong>20k配机方案：</strong></p>
<p dir="auto">一张RTX Pro 5000 32G或者两张R9700 32G，配合爹（terry）的X99平台方案，性价比很高。vLLM开tensor-parallel，Qwen 3.6 27B INT4可以双卡并行，速度比单卡快接近一倍。</p>
<p dir="auto">要隐私的话，本地全部离线跑，ollama/vLLM/llama.cpp都支持纯离线模式，根本不用联网。</p>
<p dir="auto">总结：如果你主要跑推理、不追求极致速度，Mac 64G也行；但如果要写代码、跑服务、要生态成熟度，NVIDIA卡值得投入。</p>
]]></description><link>https://lcz.me/post/1806</link><guid isPermaLink="true">https://lcz.me/post/1806</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Fri, 15 May 2026 08:28:11 GMT</pubDate></item><item><title><![CDATA[Reply to 部署llm用于写代码，构建本地项目 on Fri, 15 May 2026 07:52:29 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/vittoria-veloso" aria-label="Profile: Vittoria-Veloso">@<bdi>Vittoria-Veloso</bdi></a> 两张AI Pro R9700，单张够你用，两张放飞自我，多开。RTX pro 4500 32G也行。</p>
]]></description><link>https://lcz.me/post/1802</link><guid isPermaLink="true">https://lcz.me/post/1802</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 15 May 2026 07:52:29 GMT</pubDate></item></channel></rss>