跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?

请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?

已定时 已固定 已锁定 已移动 LLM讨论区
14 帖子 9 发布者 527 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT 在线
    terryT 在线
    terry
    编写于 最后由 编辑
    #2

    微乎其微,3-4%,我今天会发hermes视频,我感觉Q4KM和在线Deepseek V4 Flash差距也不大。有3090如果你是为了大模型,完全不必要升级。

    rich kingR tomcatzhT 2 条回复 最后回复
    1
    • terryT terry

      微乎其微,3-4%,我今天会发hermes视频,我感觉Q4KM和在线Deepseek V4 Flash差距也不大。有3090如果你是为了大模型,完全不必要升级。

      rich kingR 离线
      rich kingR 离线
      rich king
      编写于 最后由 编辑
      #3

      @terry 说:

      微乎其微,3-4%,我今天会发hermes视频,我感觉Q4KM和在线Deepseek V4 Flash差距也不大。有3090如果你是为了大模型,完全不必要升级。

      感谢回复🙏有数了,听说会有96G版本的4090,这个比pro6000会不会更有性价比,嘿嘿…

      terryT Jame HuangJ 2 条回复 最后回复
      0
      • rich kingR rich king

        @terry 说:

        微乎其微,3-4%,我今天会发hermes视频,我感觉Q4KM和在线Deepseek V4 Flash差距也不大。有3090如果你是为了大模型,完全不必要升级。

        感谢回复🙏有数了,听说会有96G版本的4090,这个比pro6000会不会更有性价比,嘿嘿…

        terryT 在线
        terryT 在线
        terry
        编写于 最后由 编辑
        #4

        @rich-king 如果真有性价比不错,但是和Pro6000不能比。

        1 条回复 最后回复
        0
        • terryT terry

          微乎其微,3-4%,我今天会发hermes视频,我感觉Q4KM和在线Deepseek V4 Flash差距也不大。有3090如果你是为了大模型,完全不必要升级。

          tomcatzhT 离线
          tomcatzhT 离线
          tomcatzh
          编写于 最后由 编辑
          #5

          @terry 不知道是不是我错觉,macOS对量化好像比较敏感,量化版本bug多

          1 条回复 最后回复
          0
          • benton yiB 离线
            benton yiB 离线
            benton yi
            编写于 最后由 编辑
            #6

            [未实测纯体感]各种量化之间的版本,只要不是q2对比bf16这种天花板和地板,我的感觉差别都远没有你精心写一份提示词和一两句话糊弄它来的大。“提示词工程师”是个职业还真不是说笑。

            1 条回复 最后回复
            1
            • Jame HuangJ 离线
              Jame HuangJ 离线
              Jame Huang
              已封禁
              编写于 最后由 编辑
              #7

              其实这些都有图的,要去hg上面多找找,有质量对比图,和各种指标啥的,PPL什么 的

              1 条回复 最后回复
              0
              • rich kingR rich king

                @terry 说:

                微乎其微,3-4%,我今天会发hermes视频,我感觉Q4KM和在线Deepseek V4 Flash差距也不大。有3090如果你是为了大模型,完全不必要升级。

                感谢回复🙏有数了,听说会有96G版本的4090,这个比pro6000会不会更有性价比,嘿嘿…

                Jame HuangJ 离线
                Jame HuangJ 离线
                Jame Huang
                已封禁
                编写于 最后由 编辑
                #8

                @rich-king 你说这个,其实我也想过,我觉得那种可以 划分显存的企业级,比如PRO 6000D 84G才有意义,魔改的4090没啥用,单4090 48G,我觉得和双4090 各24G原版 差很远,当然,价格也差不少,但是我的想法是这样的,这种贵重显卡,老黄已经刀法精准了, 算力和显存都是匹配的。 贸然翻倍 没意义,为什么?因为 它的带宽1T还是多少。 我们搞AI来推理,说白了就 是每个TOKEN 计算的时候都疯狂把内部的显存遍历一遍。 4090的算力就 那样,但是突然给它个大模型,要遍历的时间 翻倍,TOKEN生成 时间 也就 翻了倍。 不过如果你需要把2-3个模型同时常驻在显存里面,这种显卡就 有用了。

                rich kingR 1 条回复 最后回复
                0
                • yz sgY 离线
                  yz sgY 离线
                  yz sg
                  编写于 最后由 编辑
                  #9

                  在nVidia 2080 ti 上单用户可轻松跑 qwen3.6 27B Q6_k (23G).

                  1 条回复 最后回复
                  0
                  • Jame HuangJ Jame Huang

                    @rich-king 你说这个,其实我也想过,我觉得那种可以 划分显存的企业级,比如PRO 6000D 84G才有意义,魔改的4090没啥用,单4090 48G,我觉得和双4090 各24G原版 差很远,当然,价格也差不少,但是我的想法是这样的,这种贵重显卡,老黄已经刀法精准了, 算力和显存都是匹配的。 贸然翻倍 没意义,为什么?因为 它的带宽1T还是多少。 我们搞AI来推理,说白了就 是每个TOKEN 计算的时候都疯狂把内部的显存遍历一遍。 4090的算力就 那样,但是突然给它个大模型,要遍历的时间 翻倍,TOKEN生成 时间 也就 翻了倍。 不过如果你需要把2-3个模型同时常驻在显存里面,这种显卡就 有用了。

                    rich kingR 离线
                    rich kingR 离线
                    rich king
                    编写于 最后由 编辑
                    #10

                    Jame-Huang 说:

                    @rich-king 你说这个,其实我也想过,我觉得那种可以 划分显存的企业级,比如PRO 6000D 84G才有意义,魔改的4090没啥用,单4090 48G,我觉得和双4090 各24G原版 差很远,当然,价格也差不少,但是我的想法是这样的,这种贵重显卡,老黄已经刀法精准了, 算力和显存都是匹配的。 贸然翻倍 没意义,为什么?因为 它的带宽1T还是多少。 我们搞AI来推理,说白了就 是每个TOKEN 计算的时候都疯狂把内部的显存遍历一遍。 4090的算力就 那样,但是突然给它个大模型,要遍历的时间 翻倍,TOKEN生成 时间 也就 翻了倍。 不过如果你需要把2-3个模型同时常驻在显存里面,这种显卡就 有用了。

                    感谢回复,我主要想开大点的上下文,用来写文章,量化KV虽然能增大上下文,但带来的质量下降问题也不小,我宁愿慢点,也不想质量有下降,所以turboquant q3会比k8_0下降多少呢?问题好多啊,精力不够了……

                    1 条回复 最后回复
                    0
                    • michael gongM 离线
                      michael gongM 离线
                      michael gong
                      编写于 最后由 michael gong 编辑
                      #11

                      取决于你的用途.

                      如果是写文章, 创意, 不在意严谨的细节, 区别不大.
                      如果用来跑长链推理, 比如写代码改 bug, 法律逻辑推理, 会计等场景, 区别还是很明显的. q4 量化以后, 模型在这些场景下会难以抓住细节, 逻辑推理可能产生明显漏洞. 这些场景最好用 q8 或者 fp8.

                      看这篇文章, 里面对长链推理有实测数据
                      https://willitrunai.com/blog/quantization-q4-q8-fp16-explained
                      假设原始训练精度 fp16 是无损:

                      1. Q8_0 量化后, 统计上与FP16无差别, 困惑度~+0.85%
                      2. Q6_K 量化, 近乎无损, 困惑度~+2.23%
                      3. Q5_K_M 量化, 低损失, 困惑度~+3.53%
                      4. Q4_K_M 量化, 中等损失, 困惑度~+5.35%

                      其实从数学上你就可以明显感知,
                      q8 指的是 8 位整数, 一共有 2⁸ = 256 档, 所以Q8量化,就是把原始精度 fp16(65536) 映射到 256 档中某一个.
                      而 q4 是 2⁴ = 16 种, Q4 量化只能把原始精度 fp16(65536)映射到 16 档中的某一个. 所以会丢失大量细节.

                      这就是为什么搞文章创作, 适合用大参数量 moe 模型配合 q4 量化, 因为搞创意不太在意严谨细节, 有点偏差无所谓, 说不定还能涌现新的点子.
                      但是但凡要精确+严谨, 那么至少 q6 整数量化, 最好 fp8 浮点量化.
                      比较新的显卡对 fp8 有专门加速, 显著缩短 prefill 时间, 就是首 token 延迟.

                      rich kingR 1 条回复 最后回复
                      2
                      • michael gongM michael gong

                        取决于你的用途.

                        如果是写文章, 创意, 不在意严谨的细节, 区别不大.
                        如果用来跑长链推理, 比如写代码改 bug, 法律逻辑推理, 会计等场景, 区别还是很明显的. q4 量化以后, 模型在这些场景下会难以抓住细节, 逻辑推理可能产生明显漏洞. 这些场景最好用 q8 或者 fp8.

                        看这篇文章, 里面对长链推理有实测数据
                        https://willitrunai.com/blog/quantization-q4-q8-fp16-explained
                        假设原始训练精度 fp16 是无损:

                        1. Q8_0 量化后, 统计上与FP16无差别, 困惑度~+0.85%
                        2. Q6_K 量化, 近乎无损, 困惑度~+2.23%
                        3. Q5_K_M 量化, 低损失, 困惑度~+3.53%
                        4. Q4_K_M 量化, 中等损失, 困惑度~+5.35%

                        其实从数学上你就可以明显感知,
                        q8 指的是 8 位整数, 一共有 2⁸ = 256 档, 所以Q8量化,就是把原始精度 fp16(65536) 映射到 256 档中某一个.
                        而 q4 是 2⁴ = 16 种, Q4 量化只能把原始精度 fp16(65536)映射到 16 档中的某一个. 所以会丢失大量细节.

                        这就是为什么搞文章创作, 适合用大参数量 moe 模型配合 q4 量化, 因为搞创意不太在意严谨细节, 有点偏差无所谓, 说不定还能涌现新的点子.
                        但是但凡要精确+严谨, 那么至少 q6 整数量化, 最好 fp8 浮点量化.
                        比较新的显卡对 fp8 有专门加速, 显著缩短 prefill 时间, 就是首 token 延迟.

                        rich kingR 离线
                        rich kingR 离线
                        rich king
                        编写于 最后由 编辑
                        #12

                        @michael-gong 说:

                        取决于你的用途.

                        如果是写文章, 创意, 不在意严谨的细节, 区别不大.
                        如果用来跑长链推理, 比如写代码改 bug, 法律逻辑推理, 会计等场景, 区别还是很明显的. q4 量化以后, 模型在这些场景下会难以抓住细节, 逻辑推理可能产生明显漏洞. 这些场景最好用 q8 或者 fp8.

                        看这篇文章, 里面对长链推理有实测数据
                        https://willitrunai.com/blog/quantization-q4-q8-fp16-explained
                        假设原始训练精度 fp16 是无损:

                        1. Q8_0 量化后, 统计上与FP16无差别, 困惑度~+0.85%
                        2. Q6_K 量化, 近乎无损, 困惑度~+2.23%
                        3. Q5_K_M 量化, 低损失, 困惑度~+3.53%
                        4. Q4_K_M 量化, 中等损失, 困惑度~+5.35%

                        其实从数学上你就可以明显感知,
                        q8 指的是 8 位整数, 一共有 2⁸ = 256 档, 所以Q8量化,就是把原始精度 fp16(65536) 映射到 256 档中某一个.
                        而 q4 是 2⁴ = 16 种, Q4 量化只能把原始精度 fp16(65536)映射到 16 档中的某一个. 所以会丢失大量细节.

                        这就是为什么搞文章创作, 适合用大参数量 moe 模型配合 q4 量化, 因为搞创意不太在意严谨细节, 有点偏差无所谓, 说不定还能涌现新的点子.
                        但是但凡要精确+严谨, 那么至少 q6 整数量化, 最好 fp8 浮点量化.
                        比较新的显卡对 fp8 有专门加速, 显著缩短 prefill 时间, 就是首 token 延迟.

                        受益匪浅,感谢!我的应用场景对AI的推理准确度、上下文获取精度有一定要求,所以准备入手大显存装备了,最后还得靠钞能力,哈哈……

                        1 条回复 最后回复
                        1
                        • rock shiR 离线
                          rock shiR 离线
                          rock shi
                          编写于 最后由 编辑
                          #13

                          q4我开reasoning high完全够啊,几乎不会出错。我用下来是觉得比DeepSeek v4 flash和pro都夯

                          1 条回复 最后回复
                          0
                          • B 离线
                            B 离线
                            blackjack
                            编写于 最后由 编辑
                            #14

                            模型量化应该不明显吧。精度主要是在k cache上吧,为啥没见人讨论turboquant3呢? 我现在用的模型q4 k_p,k tq3, v tq2, ctx128k

                            1 条回复 最后回复
                            0

                            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                            有了你的建议,这篇帖子会更精彩哦 💗

                            注册 登录
                            回复
                            • 在新帖中回复
                            登录后回复
                            • 从旧到新
                            • 从新到旧
                            • 最多赞同


                            • 登录

                            • 没有帐号? 注册

                            • 登录或注册以进行搜索。
                            • 第一个帖子
                              最后一个帖子
                            0
                            • 版块
                            • 最新
                            • 标签
                            • 热门
                            • 用户
                            • 群组