跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 4080&4090不同模型token性能测试

4080&4090不同模型token性能测试

已定时 已固定 已锁定 已移动 LLM讨论区
18 帖子 8 发布者 448 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • M 离线
    M 离线
    Michael Zhou
    编写于 最后由 Michael Zhou 编辑
    #1

    两块显卡:【RTX 4080 32GB】 和 【RTX 4090 48GB】, 都接的显卡坞(x4@PCI-E 3)。最近完整看完了“老特抡锤者”频道的相关视频,也参考了论坛里各位大神的经验分享,随后针对不同模型、量化版本、上下文长度以及MTP 参数进行了多轮测试。把测试结果整理出来,供大家参考。

    【20260529更新_2】

    4090 / 4080 当前生产配置(亮点:Uncensored 模型驱动Hermes,什么活都不拒绝)

    参数 4090 4080
    GPU RTX 4090 48GB (Ada) RTX 4080 32GB (Ada)
    框架 vLLM 0.21.0 vLLM 0.21.0
    Service vllm-4090-27b-fp8 vllm-4080-heretic-gptq
    模型 官方 Qwen3.6-27B-FP8 llmfan46 Heretic v2 GPTQ-Int4
    客户端用途 Claude Code Hermes
    Censored ❌ ✅ uncensored (MPOA)
    量化 FP8 E4M3 block 128×128 GPTQ-Int4 (Marlin)
    KV dtype fp8 fp8
    max-model-len 262144 (256K) 262144 (256K)
    max-num-seqs 1 1
    gpu-mem-util 0.97 0.96
    MTP s 5 3
    tool-call-parser qwen3_coder qwen3_coder
    reasoning-parser qwen3 qwen3
    prefix-caching ✅ ✅
    vision/video ✅ 内嵌 ✅ 内嵌
    bench tok/s 54.2 62.7
    bench accept 54% 61%
    实际场景 73-76 tok/s(高命中 99% accept) 接近一致

    【20260529更新_1】

    03382072-3ea1-4666-8a27-7e57a5d172a3-image.jpeg
    46307668-c032-4321-9972-9464ad019234-image.jpeg
    ac56489e-dde7-4c7c-87d9-ed8edb132ea0-image.jpeg
    2ef49ea1-2f4f-4cb5-b5d4-fe083120ca98-微信图片_20260529102451_763_277.jpg

    【先上图,证明不是云】

    微信图片_20260525230946_630_277.jpg
    微信图片_20260525230945_629_277.jpg

    【平台信息】

    类别 项 配置
    机型 型号 HP Z4 G4 Workstation
    电源 750 W
    CPU 型号 Intel Xeon W-2133
    主频 3.6 GHz
    核 / 线程 6 核 / 12 线程
    内存 类型 DDR4
    容量 32 GB
    GPU 0 型号 RTX 4090(魔改)
    显存 48 GB
    用途 主推理
    GPU 1 型号 RTX 4080(魔改)
    显存 32 GB
    用途 副推理
    GPU 2 型号 RTX 2080 Ti(魔改)
    显存 22 GB
    用途 ComfyUI
    显存合计 102 GB
    系统盘 类型 NVMe M.2 SSD
    容量 256 GB
    数据盘 挂载点 /data
    容量 458 GB
    系统 OS Ubuntu 24.04 LTS
    内核 Linux 6.17.0-29-generic

    【4090 token 性能历史】

    时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s 并发 tok/s
    2026-05-17 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV 256K s=3 ✅ ❌ 37 —
    2026-05-21 QuantTrio AWQ Dense vLLM AWQ INT4 + FP8 KV 256K s=3 ❌ ❌ 81 208 (并发3)
    2026-05-23 中 QuantTrio AWQ-6Bit vLLM AWQ 6-bit 256K s=3 ❌ ❌ 68 124 (并发2, 反慢)
    2026-05-23 中 QuantTrio 35B-A3B vLLM AWQ INT4 256K s=3 ❌ ❌ 107 351 (并发5)
    2026-05-23 晚 35B-A3B 无 MTP vLLM AWQ INT4 + batched=16384 256K ❌ 关 ❌ ❌ 145 337 (并发5)
    2026-05-24 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV + prefix-cache 256K s=5 ✅ ❌ 60.8 —
    2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=7 ✅ ❌ 63.8 —
    2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=8 ✅ ❌ 64.0(边际死) —
    2026-05-25 Heretic Q8 llama.cpp(试) Q8 + q8_0 KV 256K n=3 ✅ ✅ 63.4 —
    2026-05-25 Heretic Q8 llama.cpp(试) 同上 256K n=5 ✅ ✅ 66.5 —
    2026-05-25 Heretic GPTQ-Int4 vLLM(失败) GPTQ-Int4 256K s=3 — ✅ 21(accept 1.25% broken) —
    2026-05-25 Heretic Q8 llama.cpp ⭐ 当前 default Q8 + q8_0 KV 256K n=7 ✅ ✅ 68.7 —

    【4080 token 性能历史】

    时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s
    2026-05-09 QuantTrio AWQ Dense vLLM 0.20.1 AWQ INT4 + FP8 KV 128K s=3 ❌ ❌ 62.9
    2026-05-11 同上 vLLM 0.20.2(regression) AWQ INT4 128K s=2 ❌ ❌ 45.6
    2026-05-22 HauhauCS 27B Aggressive llama.cpp Q4_K_P GGUF 256K ❌ 无(mmproj 互斥) ✅ ✅ 32
    2026-05-23 QuantTrio 35B-A3B vLLM AWQ INT4 + FP8 KV + seqs=1 256K 无 ❌ ❌ 106
    2026-05-23 同上 同上 256K s=1 ❌ ❌ 77
    2026-05-23 同上 同上 256K s=2 ❌ ❌ 93
    2026-05-23 QuantTrio 35B-A3B vLLM 同上 256K s=3 ❌ ❌ 117
    2026-05-24 SummonGov 27B-MTP graft Q6_K_P GGUF + q8 KV 64K n=1 ❌ ✅ 40.1
    2026-05-24 同上 同上 64K n=2 ❌ ✅ 50.1
    2026-05-24 同上 同上 64K n=3 ❌ ✅ 55.7
    2026-05-24 同上 同上 64K n=5 ❌ ✅ 58.9
    2026-05-24 同上 同上 64K n=7 ❌ ✅ 55.3
    2026-05-24 SummonGov 27B-MTP Q4_K_P GGUF + q8 KV 64K n=3 ❌ ✅ 20.6(accept 2% broken)
    2026-05-24 同上 同上 64K n=5 ❌ ✅ 62.5
    2026-05-24 同上 同上 64K n=7 ❌ ✅ 56.8
    2026-05-24 llmfan46 Heretic Q6_K llama.cpp Q6_K + q8 KV 64K n=3 ✅ ✅ 57.0
    2026-05-24 同上 同上 64K n=5 ✅ ✅ 61.6
    2026-05-24 同上 同上 64K n=7 ✅ ✅ 56.5
    2026-05-24 同上 q8_0 KV @ 256K Q6_K + q8 KV 256K n=5 ✅ ✅ OOM 差 836 MiB
    2026-05-24 同上 q5_1 KV @ 256K Q6_K + q5_1 KV 256K n=5 ✅ ✅ 慢(flash-attn 不兼容)
    2026-05-24 同上 q5_0 KV @ 256K Q6_K + q5_0 KV 256K n=5 ✅ ✅ 12(slow path)
    2026-05-24 同上 iq4_nl KV @ 256K Q6_K + iq4_nl KV 256K n=5 ✅ ✅ 26(slow path)
    2026-05-24 Heretic GPTQ-Int4 vLLM(失败) GPTQ INT4 256K s=3 — ✅ 21(accept 1.25%)
    2026-05-24 llmfan46 Heretic Q6_K llama.cpp ⭐ 当前 default Q6_K + q4_0 KV 256K n=5 ✅ ✅ 58-62
    rock shiR 1 条回复 最后回复
    5
    • B 在线
      B 在线
      blackjack
      编写于 最后由 编辑
      #2

      多上几张机箱和拓展坞还有连接的图啊

      M 2 条回复 最后回复
      0
      • M Michael Zhou

        两块显卡:【RTX 4080 32GB】 和 【RTX 4090 48GB】, 都接的显卡坞(x4@PCI-E 3)。最近完整看完了“老特抡锤者”频道的相关视频,也参考了论坛里各位大神的经验分享,随后针对不同模型、量化版本、上下文长度以及MTP 参数进行了多轮测试。把测试结果整理出来,供大家参考。

        【20260529更新_2】

        4090 / 4080 当前生产配置(亮点:Uncensored 模型驱动Hermes,什么活都不拒绝)

        参数 4090 4080
        GPU RTX 4090 48GB (Ada) RTX 4080 32GB (Ada)
        框架 vLLM 0.21.0 vLLM 0.21.0
        Service vllm-4090-27b-fp8 vllm-4080-heretic-gptq
        模型 官方 Qwen3.6-27B-FP8 llmfan46 Heretic v2 GPTQ-Int4
        客户端用途 Claude Code Hermes
        Censored ❌ ✅ uncensored (MPOA)
        量化 FP8 E4M3 block 128×128 GPTQ-Int4 (Marlin)
        KV dtype fp8 fp8
        max-model-len 262144 (256K) 262144 (256K)
        max-num-seqs 1 1
        gpu-mem-util 0.97 0.96
        MTP s 5 3
        tool-call-parser qwen3_coder qwen3_coder
        reasoning-parser qwen3 qwen3
        prefix-caching ✅ ✅
        vision/video ✅ 内嵌 ✅ 内嵌
        bench tok/s 54.2 62.7
        bench accept 54% 61%
        实际场景 73-76 tok/s(高命中 99% accept) 接近一致

        【20260529更新_1】

        03382072-3ea1-4666-8a27-7e57a5d172a3-image.jpeg
        46307668-c032-4321-9972-9464ad019234-image.jpeg
        ac56489e-dde7-4c7c-87d9-ed8edb132ea0-image.jpeg
        2ef49ea1-2f4f-4cb5-b5d4-fe083120ca98-微信图片_20260529102451_763_277.jpg

        【先上图,证明不是云】

        微信图片_20260525230946_630_277.jpg
        微信图片_20260525230945_629_277.jpg

        【平台信息】

        类别 项 配置
        机型 型号 HP Z4 G4 Workstation
        电源 750 W
        CPU 型号 Intel Xeon W-2133
        主频 3.6 GHz
        核 / 线程 6 核 / 12 线程
        内存 类型 DDR4
        容量 32 GB
        GPU 0 型号 RTX 4090(魔改)
        显存 48 GB
        用途 主推理
        GPU 1 型号 RTX 4080(魔改)
        显存 32 GB
        用途 副推理
        GPU 2 型号 RTX 2080 Ti(魔改)
        显存 22 GB
        用途 ComfyUI
        显存合计 102 GB
        系统盘 类型 NVMe M.2 SSD
        容量 256 GB
        数据盘 挂载点 /data
        容量 458 GB
        系统 OS Ubuntu 24.04 LTS
        内核 Linux 6.17.0-29-generic

        【4090 token 性能历史】

        时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s 并发 tok/s
        2026-05-17 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV 256K s=3 ✅ ❌ 37 —
        2026-05-21 QuantTrio AWQ Dense vLLM AWQ INT4 + FP8 KV 256K s=3 ❌ ❌ 81 208 (并发3)
        2026-05-23 中 QuantTrio AWQ-6Bit vLLM AWQ 6-bit 256K s=3 ❌ ❌ 68 124 (并发2, 反慢)
        2026-05-23 中 QuantTrio 35B-A3B vLLM AWQ INT4 256K s=3 ❌ ❌ 107 351 (并发5)
        2026-05-23 晚 35B-A3B 无 MTP vLLM AWQ INT4 + batched=16384 256K ❌ 关 ❌ ❌ 145 337 (并发5)
        2026-05-24 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV + prefix-cache 256K s=5 ✅ ❌ 60.8 —
        2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=7 ✅ ❌ 63.8 —
        2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=8 ✅ ❌ 64.0(边际死) —
        2026-05-25 Heretic Q8 llama.cpp(试) Q8 + q8_0 KV 256K n=3 ✅ ✅ 63.4 —
        2026-05-25 Heretic Q8 llama.cpp(试) 同上 256K n=5 ✅ ✅ 66.5 —
        2026-05-25 Heretic GPTQ-Int4 vLLM(失败) GPTQ-Int4 256K s=3 — ✅ 21(accept 1.25% broken) —
        2026-05-25 Heretic Q8 llama.cpp ⭐ 当前 default Q8 + q8_0 KV 256K n=7 ✅ ✅ 68.7 —

        【4080 token 性能历史】

        时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s
        2026-05-09 QuantTrio AWQ Dense vLLM 0.20.1 AWQ INT4 + FP8 KV 128K s=3 ❌ ❌ 62.9
        2026-05-11 同上 vLLM 0.20.2(regression) AWQ INT4 128K s=2 ❌ ❌ 45.6
        2026-05-22 HauhauCS 27B Aggressive llama.cpp Q4_K_P GGUF 256K ❌ 无(mmproj 互斥) ✅ ✅ 32
        2026-05-23 QuantTrio 35B-A3B vLLM AWQ INT4 + FP8 KV + seqs=1 256K 无 ❌ ❌ 106
        2026-05-23 同上 同上 256K s=1 ❌ ❌ 77
        2026-05-23 同上 同上 256K s=2 ❌ ❌ 93
        2026-05-23 QuantTrio 35B-A3B vLLM 同上 256K s=3 ❌ ❌ 117
        2026-05-24 SummonGov 27B-MTP graft Q6_K_P GGUF + q8 KV 64K n=1 ❌ ✅ 40.1
        2026-05-24 同上 同上 64K n=2 ❌ ✅ 50.1
        2026-05-24 同上 同上 64K n=3 ❌ ✅ 55.7
        2026-05-24 同上 同上 64K n=5 ❌ ✅ 58.9
        2026-05-24 同上 同上 64K n=7 ❌ ✅ 55.3
        2026-05-24 SummonGov 27B-MTP Q4_K_P GGUF + q8 KV 64K n=3 ❌ ✅ 20.6(accept 2% broken)
        2026-05-24 同上 同上 64K n=5 ❌ ✅ 62.5
        2026-05-24 同上 同上 64K n=7 ❌ ✅ 56.8
        2026-05-24 llmfan46 Heretic Q6_K llama.cpp Q6_K + q8 KV 64K n=3 ✅ ✅ 57.0
        2026-05-24 同上 同上 64K n=5 ✅ ✅ 61.6
        2026-05-24 同上 同上 64K n=7 ✅ ✅ 56.5
        2026-05-24 同上 q8_0 KV @ 256K Q6_K + q8 KV 256K n=5 ✅ ✅ OOM 差 836 MiB
        2026-05-24 同上 q5_1 KV @ 256K Q6_K + q5_1 KV 256K n=5 ✅ ✅ 慢(flash-attn 不兼容)
        2026-05-24 同上 q5_0 KV @ 256K Q6_K + q5_0 KV 256K n=5 ✅ ✅ 12(slow path)
        2026-05-24 同上 iq4_nl KV @ 256K Q6_K + iq4_nl KV 256K n=5 ✅ ✅ 26(slow path)
        2026-05-24 Heretic GPTQ-Int4 vLLM(失败) GPTQ INT4 256K s=3 — ✅ 21(accept 1.25%)
        2026-05-24 llmfan46 Heretic Q6_K llama.cpp ⭐ 当前 default Q6_K + q4_0 KV 256K n=5 ✅ ✅ 58-62
        rock shiR 离线
        rock shiR 离线
        rock shi
        编写于 最后由 编辑
        #3

        @Michael-Zhou 妈耶,感觉4080跟我3080差不多

        1 条回复 最后回复
        0
        • williamlouisW 离线
          williamlouisW 离线
          williamlouis
          编写于 最后由 编辑
          #4

          感谢分享。棒棒哒。辛苦了兄弟。

          个人主页:xlkj.org Telegram https://t.me/xlkjorg

          1 条回复 最后回复
          0
          • B blackjack

            多上几张机箱和拓展坞还有连接的图啊

            M 离线
            M 离线
            Michael Zhou
            编写于 最后由 编辑
            #5

            @blackjack 明天找时间上图

            terryT 1 条回复 最后回复
            0
            • M Michael Zhou

              @blackjack 明天找时间上图

              terryT 在线
              terryT 在线
              terry
              超级版主
              编写于 最后由 编辑
              #6

              @Michael-Zhou 这个玩的有点让人热血澎湃,说真的我也挺羡慕的,😂

              油管:https://www.youtube.com/@抡锤者

              1 条回复 最后回复
              0
              • terryT terry 固定了该主题
              • Groot AceG 离线
                Groot AceG 离线
                Groot Ace
                编写于 最后由 编辑
                #7

                有点无从下手啊 怎么办呢?

                1 条回复 最后回复
                0
                • 系统 取消固定了该主题
                • B blackjack

                  多上几张机箱和拓展坞还有连接的图啊

                  M 离线
                  M 离线
                  Michael Zhou
                  编写于 最后由 编辑
                  #8

                  @blackjack 图片更新了

                  terryT B 2 条回复 最后回复
                  0
                  • terryT terry 固定了该主题
                  • M Michael Zhou

                    @blackjack 图片更新了

                    terryT 在线
                    terryT 在线
                    terry
                    超级版主
                    编写于 最后由 编辑
                    #9

                    @Michael-Zhou 这台式机是安装了Oculink的PICE扩展卡?

                    油管:https://www.youtube.com/@抡锤者

                    M 1 条回复 最后回复
                    0
                    • M Michael Zhou

                      @blackjack 图片更新了

                      B 在线
                      B 在线
                      blackjack
                      编写于 最后由 编辑
                      #10

                      @Michael-Zhou 说:

                      @blackjack 图片更新了

                      非常感谢,人在日本啊

                      M 1 条回复 最后回复
                      0
                      • B blackjack

                        @Michael-Zhou 说:

                        @blackjack 图片更新了

                        非常感谢,人在日本啊

                        M 离线
                        M 离线
                        Michael Zhou
                        编写于 最后由 编辑
                        #11

                        @blackjack 不在日本。图片是EDIX参展时拍的,估计大家喜欢看,就放上去了。

                        jenaflexJ 1 条回复 最后回复
                        1
                        • terryT terry

                          @Michael-Zhou 这台式机是安装了Oculink的PICE扩展卡?

                          M 离线
                          M 离线
                          Michael Zhou
                          编写于 最后由 编辑
                          #12

                          @terry 是的, PCIE x16的槽拆分成x4x4x4x4,PICE扩展卡能接4个显卡坞。

                          1 条回复 最后回复
                          1
                          • M Michael Zhou

                            @blackjack 不在日本。图片是EDIX参展时拍的,估计大家喜欢看,就放上去了。

                            jenaflexJ 离线
                            jenaflexJ 离线
                            jenaflex
                            编写于 最后由 jenaflex 编辑
                            #13

                            @Michael-Zhou 对大家(lsp)得口味把握精准 哈哈哈哈
                            你得oculink卡是内置PLX拆分芯片,还是利用BIOS的Bifurcation?
                            好像记得Intel商用机工作站主板很少支持Bifurcation的,AMD EPYC主板支持的比较多

                            M 1 条回复 最后回复
                            0
                            • jenaflexJ jenaflex

                              @Michael-Zhou 对大家(lsp)得口味把握精准 哈哈哈哈
                              你得oculink卡是内置PLX拆分芯片,还是利用BIOS的Bifurcation?
                              好像记得Intel商用机工作站主板很少支持Bifurcation的,AMD EPYC主板支持的比较多

                              M 离线
                              M 离线
                              Michael Zhou
                              编写于 最后由 编辑
                              #14

                              @jenaflex 转接卡上没有芯片,就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation,支持PCIE拆分。

                              jenaflexJ 1 条回复 最后回复
                              0
                              • M Michael Zhou

                                @jenaflex 转接卡上没有芯片,就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation,支持PCIE拆分。

                                jenaflexJ 离线
                                jenaflexJ 离线
                                jenaflex
                                编写于 最后由 编辑
                                #15

                                @Michael-Zhou 哇塞,自带拆分,那的确不错,捡到宝了

                                1 条回复 最后回复
                                0
                                • 系统 取消固定了该主题
                                • demoD 离线
                                  demoD 离线
                                  demo
                                  编写于 最后由 编辑
                                  #16

                                  Zhou,请教一下,HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢?我问了gemini和豆包,都是不带视觉的。但是询问他们俩关于比较新的第三方模型,他们总是会出现幻觉

                                  M 1 条回复 最后回复
                                  0
                                  • demoD demo

                                    Zhou,请教一下,HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢?我问了gemini和豆包,都是不带视觉的。但是询问他们俩关于比较新的第三方模型,他们总是会出现幻觉

                                    M 离线
                                    M 离线
                                    Michael Zhou
                                    编写于 最后由 Michael Zhou 编辑
                                    #17

                                    @demo 记得是通过加载mmproj 启用视觉, 但是mmproj 和MTP没办法同时开,后面没用这个模型。
                                    推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 , 这个有视觉, 我一直跑着,很稳定。
                                    4080 32G启动参数:

                                    exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \
                                        --served-model-name 4080 \
                                        --port 8002 \
                                        --max-model-len 262144 \
                                        --max-num-seqs 1 \
                                        --gpu-memory-utilization 0.96 \
                                        --enable-prefix-caching \
                                        --kv-cache-dtype fp8 \
                                        --trust-remote-code \
                                        --reasoning-parser qwen3 \
                                        --enable-auto-tool-choice \
                                        --tool-call-parser qwen3_coder \
                                        --speculative-config '{"method":"mtp","num_speculative_tokens":3}'
                                    
                                    demoD 1 条回复 最后回复
                                    1
                                    • M Michael Zhou

                                      @demo 记得是通过加载mmproj 启用视觉, 但是mmproj 和MTP没办法同时开,后面没用这个模型。
                                      推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 , 这个有视觉, 我一直跑着,很稳定。
                                      4080 32G启动参数:

                                      exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \
                                          --served-model-name 4080 \
                                          --port 8002 \
                                          --max-model-len 262144 \
                                          --max-num-seqs 1 \
                                          --gpu-memory-utilization 0.96 \
                                          --enable-prefix-caching \
                                          --kv-cache-dtype fp8 \
                                          --trust-remote-code \
                                          --reasoning-parser qwen3 \
                                          --enable-auto-tool-choice \
                                          --tool-call-parser qwen3_coder \
                                          --speculative-config '{"method":"mtp","num_speculative_tokens":3}'
                                      
                                      demoD 离线
                                      demoD 离线
                                      demo
                                      编写于 最后由 编辑
                                      #18

                                      @Michael-Zhou 哈,我昨天也是安装了这位大佬的另外一个模型https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4,暂时使用也是稳定,速度还不错。我4080S32G。
                                      简单爆测结果:

                                      Qwen3.6-27B-GPTQ-Int4 @ RTX 4080 SUPER
                                      
                                      | 指标                   | 数值                                         |
                                      |------------------------|----------------------------------------------|
                                      | 吐字速度               | ~56 tok/s                                    |
                                      | 包含 thinking 推理     | 544 tokens / 9.6s                            |
                                      | 去 thinking 纯有效输出 | 看你 prompt 带不带 [SYSTEM: No reasoning]    |
                                      
                                      1 条回复 最后回复
                                      0

                                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                      有了你的建议,这篇帖子会更精彩哦 💗

                                      注册 登录
                                      回复
                                      • 在新帖中回复
                                      登录后回复
                                      • 从旧到新
                                      • 从新到旧
                                      • 最多赞同


                                      • 登录

                                      • 没有帐号? 注册

                                      • 登录或注册以进行搜索。
                                      • 第一个帖子
                                        最后一个帖子
                                      0
                                      • 版块
                                      • 最新
                                      • 标签
                                      • 热门
                                      • 用户
                                      • 群组