部署llm用于写代码，构建本地项目

? 离线

还有一点值得补充，Coding这个场景，算是对于量化比较敏感的场景。有个对于量化质量的专用参数：Mean KL Divergence。可以理解为量化后的模型和全尺寸模型的“差异”
根据unsloth的数据，Qwen3.6系列的量化失真，大概是下图中绿色的点：

可以理解为，Q2量化和Q6量化之间，插了一个数量级的差异。

当然，严谨来讲，这个“差异”也不完全是往坏的差异。就跟你买彩票，你输错了号码也一样能中奖。
但是从控制变量，生产环境的稳定性的角度，还是要以贴近全量模型为目标。

mark

王哥 ,回复很有深度.

williamlouis

此主題已被删除！

高乐天

编程的话还是不建议用本地模型，尤其是对接 claude code 或 open code 这类编程代理工具，prefill 的速度慢的让人无法忍受。即使上 5090 ，prefill 3000+ , 本地编程模型的水平也实在一般，即使是 qwen3.6-27B 的编程水平也只是凑乎能用而已。

高乐天

此主題已被删除！

terry

@王一民都是精品。

Kk Hh

@高乐天说:

编程的话还是不建议用本地模型，尤其是对接 claude code 或 open code 这类编程代理工具，prefill 的速度慢的让人无法忍受。即使上 5090 ，prefill 3000+ , 本地编程模型的水平也实在一般，即使是 qwen3.6-27B 的编程水平也只是凑乎能用而已。

这个说的很对啊，你有什么理由必须在本地部署编程模型呢。现在所有的小模型都算上，你本地部署就算是满血的，你也要对这些小模型做高度的限制适配，能力也就那样。就那点隐私，人家大公司我觉得才不在乎这个呢。唯一的需求就是云端没有这个模型，你偏要用。那你本地用，就回到了精度和适配上来了。搞了设备仅仅只是开始，我现在什么都没干，每次先填进100K的流程和限制文档，尤其是我用的这种越狱模型他抹除的不是你认为的限制，是真正模型中的所有限制。
现在看来咱们这些消费级设备，就能干两件事事情比较靠谱：1，用显卡生成视频，2，用128G小机满血跑自定义模型。用128G小机满血跑自定义模型,其实这个绝大数编程的人也根本用不到。

Chang Ching-Chun

感謝大大，數據非常詳盡

Vittoria Veloso

我可以这么搞吗，本地Hermes用本地部署的qwen 3.6 27b -4bit，然后computer use 云端的比如Gemini，财力有限不敢搞opus和chatgpt，我觉着不能让AI主导。

Vittoria Veloso

@王一民最低Q4以下的不要尝试，问题太多，我踩过坑。

抡锤者

部署llm用于写代码，构建本地项目