跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 部署llm用于写代码,构建本地项目

部署llm用于写代码,构建本地项目

已定时 已固定 已锁定 已移动 LLM讨论区
19 帖子 10 发布者 225 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • 王一民王 离线
    王一民王 离线
    王一民
    编写于 最后由 编辑
    #10

    还有一点值得补充,Coding这个场景,算是对于量化比较敏感的场景。有个对于量化质量的专用参数:Mean KL Divergence。可以理解为量化后的模型和全尺寸模型的“差异”
    根据unsloth的数据,Qwen3.6系列的量化失真,大概是下图中绿色的点:
    39bc6a56-cad2-4c17-9d19-f6329ca673c4-image.jpeg
    可以理解为,Q2量化和Q6量化之间,插了一个数量级的差异。

    当然,严谨来讲,这个“差异”也不完全是往坏的差异。就跟你买彩票,你输错了号码也一样能中奖。
    但是从控制变量,生产环境的稳定性的角度,还是要以贴近全量模型为目标。

    虚心交流,一起进步

    terryT Chang Ching-ChunC Vittoria VelosoV 3 条回复 最后回复
    1
    • M 离线
      M 离线
      mark
      编写于 最后由 编辑
      #11

      王哥 ,回复很有深度.

      1 条回复 最后回复
      0
      • Vittoria VelosoV Vittoria Veloso

        问下,我的笔记本mac他的显存可以给到23gb左右,我发现4bit量化的qwen 3.6 27b明显强于qwen 3.5 9b 8bit换成3.5也类似。我只有2w rmb的预算是在买个mac 64gb还是上英伟达显卡,算了装台湾人上辉达显卡还是mac,2w人民币预算。我不想折腾Claude,封号太严重了,Gemini确实生成代码质量不太高,而且客户要求隐私。

        williamlouisW 离线
        williamlouisW 离线
        williamlouis
        编写于 最后由 williamlouis 编辑
        #12
        此主題已被删除!
        1 条回复 最后回复
        0
        • 高乐天高 在线
          高乐天高 在线
          高乐天
          编写于 最后由 编辑
          #13

          编程的话还是不建议用本地模型,尤其是对接 claude code 或 open code 这类编程代理工具,prefill 的速度慢的让人无法忍受。即使上 5090 ,prefill 3000+ , 本地编程模型的水平也实在一般,即使是 qwen3.6-27B 的编程水平也只是凑乎能用而已。

          Kk HhK 1 条回复 最后回复
          0
          • 高乐天高 在线
            高乐天高 在线
            高乐天
            编写于 最后由 编辑
            #14
            此主題已被删除!
            1 条回复 最后回复
            0
            • 王一民王 王一民

              还有一点值得补充,Coding这个场景,算是对于量化比较敏感的场景。有个对于量化质量的专用参数:Mean KL Divergence。可以理解为量化后的模型和全尺寸模型的“差异”
              根据unsloth的数据,Qwen3.6系列的量化失真,大概是下图中绿色的点:
              39bc6a56-cad2-4c17-9d19-f6329ca673c4-image.jpeg
              可以理解为,Q2量化和Q6量化之间,插了一个数量级的差异。

              当然,严谨来讲,这个“差异”也不完全是往坏的差异。就跟你买彩票,你输错了号码也一样能中奖。
              但是从控制变量,生产环境的稳定性的角度,还是要以贴近全量模型为目标。

              terryT 离线
              terryT 离线
              terry
              编写于 最后由 编辑
              #15

              @王一民 都是精品。

              1 条回复 最后回复
              0
              • terryT terry 固定了该主题
              • 高乐天高 高乐天

                编程的话还是不建议用本地模型,尤其是对接 claude code 或 open code 这类编程代理工具,prefill 的速度慢的让人无法忍受。即使上 5090 ,prefill 3000+ , 本地编程模型的水平也实在一般,即使是 qwen3.6-27B 的编程水平也只是凑乎能用而已。

                Kk HhK 离线
                Kk HhK 离线
                Kk Hh
                编写于 最后由 Kk Hh 编辑
                #16

                @高乐天 说:

                编程的话还是不建议用本地模型,尤其是对接 claude code 或 open code 这类编程代理工具,prefill 的速度慢的让人无法忍受。即使上 5090 ,prefill 3000+ , 本地编程模型的水平也实在一般,即使是 qwen3.6-27B 的编程水平也只是凑乎能用而已。

                这个说的很对啊,你有什么理由必须在本地部署编程模型呢。现在所有的小模型都算上,你本地部署就算是满血的,你也要对这些小模型做高度的限制适配,能力也就那样。就那点隐私,人家大公司我觉得才不在乎这个呢。唯一的需求就是云端没有这个模型,你偏要用。那你本地用,就回到了精度和适配上来了。搞了设备仅仅只是开始,我现在什么都没干,每次先填进100K的流程和限制文档,尤其是我用的这种越狱模型他抹除的不是你认为的限制,是真正模型中的所有限制。
                现在看来咱们这些消费级设备,就能干两件事事情比较靠谱:1,用显卡生成视频,2,用128G小机满血跑自定义模型。 用128G小机满血跑自定义模型,其实这个绝大数编程的人也根本用不到。

                1 条回复 最后回复
                0
                • 王一民王 王一民

                  还有一点值得补充,Coding这个场景,算是对于量化比较敏感的场景。有个对于量化质量的专用参数:Mean KL Divergence。可以理解为量化后的模型和全尺寸模型的“差异”
                  根据unsloth的数据,Qwen3.6系列的量化失真,大概是下图中绿色的点:
                  39bc6a56-cad2-4c17-9d19-f6329ca673c4-image.jpeg
                  可以理解为,Q2量化和Q6量化之间,插了一个数量级的差异。

                  当然,严谨来讲,这个“差异”也不完全是往坏的差异。就跟你买彩票,你输错了号码也一样能中奖。
                  但是从控制变量,生产环境的稳定性的角度,还是要以贴近全量模型为目标。

                  Chang Ching-ChunC 离线
                  Chang Ching-ChunC 离线
                  Chang Ching-Chun
                  编写于 最后由 编辑
                  #17

                  感謝大大,數據非常詳盡👍

                  1 条回复 最后回复
                  0
                  • Vittoria VelosoV 离线
                    Vittoria VelosoV 离线
                    Vittoria Veloso
                    编写于 最后由 编辑
                    #18

                    我可以这么搞吗,本地Hermes用本地部署的qwen 3.6 27b -4bit,然后computer use 云端的比如Gemini,财力有限不敢搞opus和chatgpt,我觉着不能让AI主导。

                    1 条回复 最后回复
                    0
                    • 王一民王 王一民

                      还有一点值得补充,Coding这个场景,算是对于量化比较敏感的场景。有个对于量化质量的专用参数:Mean KL Divergence。可以理解为量化后的模型和全尺寸模型的“差异”
                      根据unsloth的数据,Qwen3.6系列的量化失真,大概是下图中绿色的点:
                      39bc6a56-cad2-4c17-9d19-f6329ca673c4-image.jpeg
                      可以理解为,Q2量化和Q6量化之间,插了一个数量级的差异。

                      当然,严谨来讲,这个“差异”也不完全是往坏的差异。就跟你买彩票,你输错了号码也一样能中奖。
                      但是从控制变量,生产环境的稳定性的角度,还是要以贴近全量模型为目标。

                      Vittoria VelosoV 离线
                      Vittoria VelosoV 离线
                      Vittoria Veloso
                      编写于 最后由 编辑
                      #19

                      @王一民 最低Q4以下的不要尝试,问题太多,我踩过坑。

                      1 条回复 最后回复
                      0
                      • 系统 取消固定了该主题

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组