跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 🚀 Lucebox DFlash + Huihui:7900 XTX 上真·无审查 + 极速推理完全折腾纪实

🚀 Lucebox DFlash + Huihui:7900 XTX 上真·无审查 + 极速推理完全折腾纪实

已定时 已固定 已锁定 已移动 LLM讨论区
37 帖子 10 发布者 417 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • A 离线
    A 离线
    abaalei
    编写于 最后由 编辑
    #11

    以下内容以agent回复为主,个人回复为辅,感谢论坛内各路大神的捧场!

    @terry @hyaska @sil041

    感谢支持~折腾了三天,踩坑无数,好在最后成果还不错 😄 作业随便抄,有问题随时问。

    @laobenxiong

    128K 上下文在 7900 XTX 上实测过,结论是跑不了。详细账目:

                   64K          128K
    

    模型 Q4_K_M ~16 GB ~16 GB
    KV cache ~2.5 GB ~5 GB
    草稿模型 ~0.5 GB ~0.5 GB
    其他 ~1 GB ~1 GB
    ─────────────────────────────────────
    总计 ~20 GB ~22.5 GB
    可用 24 GB 24 GB

    实测算下来 64K 稳,128K 强行分配时 ROCm 报 cudaMalloc failed: out of memory。所以目前定的是 DFlash 32K 日常用(这部分主要拿来随便对话,生成灵感),长文本切到 IQ4_XS 跑 128K(本人主要拿来写小说)。

    @Kk Hh

    你提到 Huihui 的越狱太暴力这个观察很到位。Abliterate 本质就是拿 diff-in-means 算出 attention 里的"拒绝回答"方向然后反向投影,确实暴力。

    不过说 Qwen 不适合做越狱模型——从实测结果看,Qwen3.6 的安全训练相对温和,反而是 diff-in-means 效果比较好的基座。我们实测 Huihui 的真无审查版在代码场景下草稿接受率仍有 39%,智力没明显下降,日常用没啥问题。

    同意你说的:越狱模型更适合作为本地私有部署的辅助工具,日常用原版,需要绕过审核时再切,两套共存才是合理方案。(我目前主力模型是deepseek v4flash,gemini3.1pro白嫖版,gemini3.5flash-agent版、sonnet4.6/Opus4.8(kiro白嫖版)、GPT5.5-thinking(微软E3白嫖版,本地大模型只占据使用中的零星一角,都是看各路大神说qwen3.6-27b比较好才去尝试用这个模型的去审查版本,如有更好选择请不吝建议!)

    @CHIA AN YANG

    上下文问题看上面回复,32K 日常够用。Hermes 接入很简单:

    custom_providers:

    • name: dflash
      api_base: http://你IP:11435/v1
      api_key: not-needed
      models:
      • name: lucebox-dflash

    然后 /model lucebox-dflash 切换即可。

    @williamlouis(Post 6172)

    你测得很详细,感谢补充!几个差异点我们逐条对过:

    1. 速度差异(64.2 vs 81.4 tok/s)
      差距约 21%,主要原因:
    • 你用的 C++ dflash_server,我们用的是 Python scripts/server.py。Python 版的 KV cache 按需分配,在相同显存下能留更多空间给推理
    • 你加了 HSA_OVERRIDE_GFX_VERSION=11.0.0 和 --cache-type-k/v tq3_0,这两个参数我们没用过,不确定对 VEC kernel 调度有没有影响,建议去掉跑一次 bench_he.py 对比
    • Huihui 在我们的测试中接受率(39.1%)反而高于 Heretic(30.0%),所以不是 draft 命中率下降的问题
    1. DPM 问题
      DPM 这点我们核实了——卡在 auto 模式下,温度 39°C,频率正常跑到。没有特意调到 high 也出了 81 tok/s。如果你的卡默认卡在 low(516MHz),那确实需要 sudo tee 调一下,但这不是普适问题,取决于主板/bios 的默认电源策略。

    2. 上下文 32K 限制
      确实,Python server.py 按需分配能跑到 118K-120K,C++ dflash_server 预分配全部 cache,32K 往上就吃紧了。

    3. 我们完整的启动参数(供参考):
      python3 scripts/server.py
      --target Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf
      --draft models/dflash-draft-3.6-q8_0.gguf
      --budget 8
      --fa-window 0
      --tokenizer Qwen/Qwen3.6-27B
      --host 0.0.0.0 --port 11435

    隐藏最深的一个坑——MTP

    这次折腾中发现了一个最意外的事:我们手上的 Qwen3.6 GGUF 模型(无论是 Heretic 还是 Huihui),量化时都没有保留 MTP 多 Token 预测层。

    [spec] failed to create MTP context: model doesn't contain MTP layers

    所以之前跑出来的 "MTP n=3 47.3 tok/s" 其实一直在跑纯自回归,MTP 压根没生效。如果你想要 MTP,需要找带 "Native-MTP-Preserved" 标签的 GGUF。我们最后直接全面转向 DFlash 了。

    最终推荐方案

    经历三天的反复折腾和横评,7900 XTX + Qwen3.6-27B 的最终定版:

    🏆 推荐
    • 引擎: DFlash + Huihui Q4_K_M
    • 上下文: 32K
    • 速度: ~81 tok/s
    • 去审查: ✅ 真
    • 用途: 日常主力

    📚 长文
    • 引擎: llama.cpp + IQ4_XS
    • 上下文: 128K
    • 速度: ~39.7 tok/s
    • 去审查: ✅
    • 用途: SillyTavern/写小说

    核心经验:

    1. FA_ALL_QUANTS=ON + --fa-window 0 + --tokenizer Qwen/Qwen3.6-27B 是 DFlash 稳定的三件套
    2. 不要 patch 源码,完整编译才是正路
    3. budget=8 是 7900 XTX 甜点,再大验证树浪费 GDDR6 带宽
    4. MTP 模式的 GGUF 要专门找带 MTP 头的版本,普通量化版不兼容
    5. 双卡机器上 Vulkan 有坑,ROCm 天然隔离 NVIDIA 卡
    williamlouisW 1 条回复 最后回复
    0
    • kos orK 离线
      kos orK 离线
      kos or
      劳动模范
      编写于 最后由 编辑
      #12

      現在真的人人都需要特助了
      本人 + AI 特助

      A 1 条回复 最后回复
      0
      • kos orK kos or

        現在真的人人都需要特助了
        本人 + AI 特助

        A 离线
        A 离线
        abaalei
        编写于 最后由 编辑
        #13

        @kos-or 对,按遥控指挥人做事的感觉真的会上瘾的,哈哈哈。我基本上是gpt3.0?一开始的时候用过一段时间,那时候觉得就那样。然后25年我爸cancer,开始重度使用gpt/grok来分析每15天的抽血报告,开始越来越觉得ai带来的增益比一开始要多了。然后26年2月开始白嫖gemini pro,用了2 个月越来越离不开了,后面就尝试在自己的truenas上面配置了hermesagent,然后就一发不可收拾了,现在都玩起双卡流了😰 ,最可惜的是当年矿潮的时候12000买的3080ti,至今都不能改24g显存,不然7900xtx主力做LLM,3080ti跑comfyui就完美了,哎,可惜呀

        kos orK 1 条回复 最后回复
        1
        • A abaalei

          以下内容以agent回复为主,个人回复为辅,感谢论坛内各路大神的捧场!

          @terry @hyaska @sil041

          感谢支持~折腾了三天,踩坑无数,好在最后成果还不错 😄 作业随便抄,有问题随时问。

          @laobenxiong

          128K 上下文在 7900 XTX 上实测过,结论是跑不了。详细账目:

                         64K          128K
          

          模型 Q4_K_M ~16 GB ~16 GB
          KV cache ~2.5 GB ~5 GB
          草稿模型 ~0.5 GB ~0.5 GB
          其他 ~1 GB ~1 GB
          ─────────────────────────────────────
          总计 ~20 GB ~22.5 GB
          可用 24 GB 24 GB

          实测算下来 64K 稳,128K 强行分配时 ROCm 报 cudaMalloc failed: out of memory。所以目前定的是 DFlash 32K 日常用(这部分主要拿来随便对话,生成灵感),长文本切到 IQ4_XS 跑 128K(本人主要拿来写小说)。

          @Kk Hh

          你提到 Huihui 的越狱太暴力这个观察很到位。Abliterate 本质就是拿 diff-in-means 算出 attention 里的"拒绝回答"方向然后反向投影,确实暴力。

          不过说 Qwen 不适合做越狱模型——从实测结果看,Qwen3.6 的安全训练相对温和,反而是 diff-in-means 效果比较好的基座。我们实测 Huihui 的真无审查版在代码场景下草稿接受率仍有 39%,智力没明显下降,日常用没啥问题。

          同意你说的:越狱模型更适合作为本地私有部署的辅助工具,日常用原版,需要绕过审核时再切,两套共存才是合理方案。(我目前主力模型是deepseek v4flash,gemini3.1pro白嫖版,gemini3.5flash-agent版、sonnet4.6/Opus4.8(kiro白嫖版)、GPT5.5-thinking(微软E3白嫖版,本地大模型只占据使用中的零星一角,都是看各路大神说qwen3.6-27b比较好才去尝试用这个模型的去审查版本,如有更好选择请不吝建议!)

          @CHIA AN YANG

          上下文问题看上面回复,32K 日常够用。Hermes 接入很简单:

          custom_providers:

          • name: dflash
            api_base: http://你IP:11435/v1
            api_key: not-needed
            models:
            • name: lucebox-dflash

          然后 /model lucebox-dflash 切换即可。

          @williamlouis(Post 6172)

          你测得很详细,感谢补充!几个差异点我们逐条对过:

          1. 速度差异(64.2 vs 81.4 tok/s)
            差距约 21%,主要原因:
          • 你用的 C++ dflash_server,我们用的是 Python scripts/server.py。Python 版的 KV cache 按需分配,在相同显存下能留更多空间给推理
          • 你加了 HSA_OVERRIDE_GFX_VERSION=11.0.0 和 --cache-type-k/v tq3_0,这两个参数我们没用过,不确定对 VEC kernel 调度有没有影响,建议去掉跑一次 bench_he.py 对比
          • Huihui 在我们的测试中接受率(39.1%)反而高于 Heretic(30.0%),所以不是 draft 命中率下降的问题
          1. DPM 问题
            DPM 这点我们核实了——卡在 auto 模式下,温度 39°C,频率正常跑到。没有特意调到 high 也出了 81 tok/s。如果你的卡默认卡在 low(516MHz),那确实需要 sudo tee 调一下,但这不是普适问题,取决于主板/bios 的默认电源策略。

          2. 上下文 32K 限制
            确实,Python server.py 按需分配能跑到 118K-120K,C++ dflash_server 预分配全部 cache,32K 往上就吃紧了。

          3. 我们完整的启动参数(供参考):
            python3 scripts/server.py
            --target Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf
            --draft models/dflash-draft-3.6-q8_0.gguf
            --budget 8
            --fa-window 0
            --tokenizer Qwen/Qwen3.6-27B
            --host 0.0.0.0 --port 11435

          隐藏最深的一个坑——MTP

          这次折腾中发现了一个最意外的事:我们手上的 Qwen3.6 GGUF 模型(无论是 Heretic 还是 Huihui),量化时都没有保留 MTP 多 Token 预测层。

          [spec] failed to create MTP context: model doesn't contain MTP layers

          所以之前跑出来的 "MTP n=3 47.3 tok/s" 其实一直在跑纯自回归,MTP 压根没生效。如果你想要 MTP,需要找带 "Native-MTP-Preserved" 标签的 GGUF。我们最后直接全面转向 DFlash 了。

          最终推荐方案

          经历三天的反复折腾和横评,7900 XTX + Qwen3.6-27B 的最终定版:

          🏆 推荐
          • 引擎: DFlash + Huihui Q4_K_M
          • 上下文: 32K
          • 速度: ~81 tok/s
          • 去审查: ✅ 真
          • 用途: 日常主力

          📚 长文
          • 引擎: llama.cpp + IQ4_XS
          • 上下文: 128K
          • 速度: ~39.7 tok/s
          • 去审查: ✅
          • 用途: SillyTavern/写小说

          核心经验:

          1. FA_ALL_QUANTS=ON + --fa-window 0 + --tokenizer Qwen/Qwen3.6-27B 是 DFlash 稳定的三件套
          2. 不要 patch 源码,完整编译才是正路
          3. budget=8 是 7900 XTX 甜点,再大验证树浪费 GDDR6 带宽
          4. MTP 模式的 GGUF 要专门找带 MTP 头的版本,普通量化版不兼容
          5. 双卡机器上 Vulkan 有坑,ROCm 天然隔离 NVIDIA 卡
          williamlouisW 离线
          williamlouisW 离线
          williamlouis
          超级版主
          编写于 最后由 编辑
          #14

          @abaalei 回复下问题:卡默认卡在 low(516MHz),那确实需要 sudo tee 调一下。不是卡的问题。我设置了功耗墙。整机的功耗在不工作的状态 卡死在75W了。所以才有默认是 516MHz。需要的人可以试试。工作的状态需要命令行调整到 high。调整命令在我的折腾帖中。手打太长,自己去看吧。

          个人主页:xlkj.org Telegram https://t.me/xlkjorg

          A 1 条回复 最后回复
          0
          • A abaalei

            @kos-or 对,按遥控指挥人做事的感觉真的会上瘾的,哈哈哈。我基本上是gpt3.0?一开始的时候用过一段时间,那时候觉得就那样。然后25年我爸cancer,开始重度使用gpt/grok来分析每15天的抽血报告,开始越来越觉得ai带来的增益比一开始要多了。然后26年2月开始白嫖gemini pro,用了2 个月越来越离不开了,后面就尝试在自己的truenas上面配置了hermesagent,然后就一发不可收拾了,现在都玩起双卡流了😰 ,最可惜的是当年矿潮的时候12000买的3080ti,至今都不能改24g显存,不然7900xtx主力做LLM,3080ti跑comfyui就完美了,哎,可惜呀

            kos orK 离线
            kos orK 离线
            kos or
            劳动模范
            编写于 最后由 编辑
            #15

            @abaalei 说:

            grok

            希望您父親現在一切安好
            

            Grok 能接API嗎 ? Musk的礦機廠都出租讓Anthropic用了
            之前用Grok 試了幾次性感圖 蠻漂亮的 但是又歪歪的

            我也是雙卡流 ~有空可以交流一下
            那天我讓Hermes 在GPU0 and GPU1 同時安裝了 Gemma-4-12B-MTP
            效果不錯 但是工作流還是要繼續研究
            目前卡PCIe 一卡只有1GB/s的速度 , 另一卡是32GB/s 無法玩TP 張量並行

            因為新的礦機架到了, 之後可能會有第三卡 但好像無法3卡 TP 😞

            A AGIA 2 条回复 最后回复
            0
            • kos orK kos or

              @abaalei 说:

              grok

              希望您父親現在一切安好
              

              Grok 能接API嗎 ? Musk的礦機廠都出租讓Anthropic用了
              之前用Grok 試了幾次性感圖 蠻漂亮的 但是又歪歪的

              我也是雙卡流 ~有空可以交流一下
              那天我讓Hermes 在GPU0 and GPU1 同時安裝了 Gemma-4-12B-MTP
              效果不錯 但是工作流還是要繼續研究
              目前卡PCIe 一卡只有1GB/s的速度 , 另一卡是32GB/s 無法玩TP 張量並行

              因為新的礦機架到了, 之後可能會有第三卡 但好像無法3卡 TP 😞

              A 离线
              A 离线
              abaalei
              编写于 最后由 编辑
              #16

              @kos-or 感谢,不过他去年就走了

              grok可以的,我现在是通过cliproxy api来oauth登陆了x之后,再反代出来给hermes用
              因为我现在在用的主板也是矿板,现在还空出来了2根x16的全场插槽(这块板一共6槽,4x16 2x8),所以在心痒痒要不要多搞2张v100/16g 或者mi50/16g回来折腾,哈哈哈

              卡1只有1GB/s是主板问题吗?

              cab0d02d-034a-43ec-a90a-f00022b176a8-da48b96c858dc4624ce09d399fa014d.jpg
              5aff1249-04ff-40c4-a898-de3cf96b5f33-image.jpeg

              kos orK 1 条回复 最后回复
              1
              • williamlouisW williamlouis

                @abaalei 回复下问题:卡默认卡在 low(516MHz),那确实需要 sudo tee 调一下。不是卡的问题。我设置了功耗墙。整机的功耗在不工作的状态 卡死在75W了。所以才有默认是 516MHz。需要的人可以试试。工作的状态需要命令行调整到 high。调整命令在我的折腾帖中。手打太长,自己去看吧。

                A 离线
                A 离线
                abaalei
                编写于 最后由 编辑
                #17

                @williamlouis 那就难怪拉,我现在3080ti待机35w+7900xtx待机20w,还没算外围电路、损耗、cpu、内存,加起来估计150~200w也是有的

                williamlouisW 1 条回复 最后回复
                0
                • A abaalei

                  @williamlouis 那就难怪拉,我现在3080ti待机35w+7900xtx待机20w,还没算外围电路、损耗、cpu、内存,加起来估计150~200w也是有的

                  williamlouisW 离线
                  williamlouisW 离线
                  williamlouis
                  超级版主
                  编写于 最后由 编辑
                  #18

                  @abaalei 功耗墙不能直接设置最低。容易直接灭火。你可以让 AI 给你算一个值 。建议中庸一点。差不多就行了。富裕点跑最稳定的。

                  个人主页:xlkj.org Telegram https://t.me/xlkjorg

                  1 条回复 最后回复
                  0
                  • kos orK 离线
                    kos orK 离线
                    kos or
                    劳动模范
                    编写于 最后由 编辑
                    #19

                    我就是用這一張 挖礦用的 GPU 轉接卡 USB cable 通訊頻寬受限吧
                    上面寫著PCIe 1.0 to 16 所以才會這麼慢
                    不過我弄了一張主板有 6 slots x 32GB/s 應該夠應付跨卡需求了

                    dd7eb504-627a-43f7-a089-5f2cf3ff7bee-image.jpeg

                    A 1 条回复 最后回复
                    0
                    • A abaalei

                      @kos-or 感谢,不过他去年就走了

                      grok可以的,我现在是通过cliproxy api来oauth登陆了x之后,再反代出来给hermes用
                      因为我现在在用的主板也是矿板,现在还空出来了2根x16的全场插槽(这块板一共6槽,4x16 2x8),所以在心痒痒要不要多搞2张v100/16g 或者mi50/16g回来折腾,哈哈哈

                      卡1只有1GB/s是主板问题吗?

                      cab0d02d-034a-43ec-a90a-f00022b176a8-da48b96c858dc4624ce09d399fa014d.jpg
                      5aff1249-04ff-40c4-a898-de3cf96b5f33-image.jpeg

                      kos orK 离线
                      kos orK 离线
                      kos or
                      劳动模范
                      编写于 最后由 编辑
                      #20

                      @abaalei 说:

                      现在还空出来了2根x16的全场插槽(这块板一共6槽,4x16 2x8),所以在心痒痒要不要多搞2张v100/16g 或者mi50/16g回来折腾,哈哈哈

                      你這是標準AI Sever 主板嗎?

                      你先確定工作流才下手 要不然不同型號的顯卡要做 PP/TP 會有一定的複雜度
                      快的卡會被慢的顯卡拖累

                      除非你每一張卡都跑一個LLM 大語言模型 這倒是可行

                      A 1 条回复 最后回复
                      0
                      • kos orK kos or

                        我就是用這一張 挖礦用的 GPU 轉接卡 USB cable 通訊頻寬受限吧
                        上面寫著PCIe 1.0 to 16 所以才會這麼慢
                        不過我弄了一張主板有 6 slots x 32GB/s 應該夠應付跨卡需求了

                        dd7eb504-627a-43f7-a089-5f2cf3ff7bee-image.jpeg

                        A 离线
                        A 离线
                        abaalei
                        编写于 最后由 编辑
                        #21

                        @kos-or 这是x1的,我手上都还有几张,现在就只有拿来当2.5g网卡延长线的作用了(我truenas的机箱太小了,塞了2张hba卡就塞不下网卡了),大佬买了啥板子?什么价格?

                        1 条回复 最后回复
                        0
                        • kos orK kos or

                          @abaalei 说:

                          现在还空出来了2根x16的全场插槽(这块板一共6槽,4x16 2x8),所以在心痒痒要不要多搞2张v100/16g 或者mi50/16g回来折腾,哈哈哈

                          你這是標準AI Sever 主板嗎?

                          你先確定工作流才下手 要不然不同型號的顯卡要做 PP/TP 會有一定的複雜度
                          快的卡會被慢的顯卡拖累

                          除非你每一張卡都跑一個LLM 大語言模型 這倒是可行

                          A 离线
                          A 离线
                          abaalei
                          编写于 最后由 编辑
                          #22

                          @kos-or 不是,我这是矿板,对的,所以现在忍住不买,怎么想都跟我原始诉求不符合,单纯的只是想折腾而已。mi50+7900xtx跨卡跑,吐字大概只有10t/s

                          kos orK 2 条回复 最后回复
                          0
                          • A abaalei

                            @kos-or 不是,我这是矿板,对的,所以现在忍住不买,怎么想都跟我原始诉求不符合,单纯的只是想折腾而已。mi50+7900xtx跨卡跑,吐字大概只有10t/s

                            kos orK 离线
                            kos orK 离线
                            kos or
                            劳动模范
                            编写于 最后由 编辑
                            #23

                            @abaalei 你跑什麼模型 吐字10 t/s ?

                            我AI小白~~~我用這張 網紅推薦的

                            技嘉MC62-G40工作站台式机电脑主板PCIE4.0六卡GPU渲染AI计算
                            264fb61b-ed44-4b09-a689-5c7e6d47df70-image.jpeg

                            A 1 条回复 最后回复
                            0
                            • A abaalei

                              @kos-or 不是,我这是矿板,对的,所以现在忍住不买,怎么想都跟我原始诉求不符合,单纯的只是想折腾而已。mi50+7900xtx跨卡跑,吐字大概只有10t/s

                              kos orK 离线
                              kos orK 离线
                              kos or
                              劳动模范
                              编写于 最后由 编辑
                              #24

                              @abaalei 说:

                              怎么想都跟我原始诉求不符合,单纯的只是想折腾而已。mi50+7900xtx跨卡跑,吐字大概只有10t/s

                              我目前的理解是
                              硬體儘量有一致性 否則你多卡型號都不一樣
                              讓AI也很難設定 它可能會弄錯 你也會被搞混,
                              Drivers 版本一堆 有的支持 有的不支持 感覺會常常撞牆 或一直卡在硬體調整
                              會浪費很多tokens 金錢和時間

                              A 1 条回复 最后回复
                              0
                              • kos orK kos or

                                @abaalei 你跑什麼模型 吐字10 t/s ?

                                我AI小白~~~我用這張 網紅推薦的

                                技嘉MC62-G40工作站台式机电脑主板PCIE4.0六卡GPU渲染AI计算
                                264fb61b-ed44-4b09-a689-5c7e6d47df70-image.jpeg

                                A 离线
                                A 离线
                                abaalei
                                编写于 最后由 编辑
                                #25

                                @kos-or 哇塞,好东西!mark下来了,以后捡垃圾就搞一张!!!

                                kos orK 1 条回复 最后回复
                                0
                                • kos orK kos or

                                  @abaalei 说:

                                  怎么想都跟我原始诉求不符合,单纯的只是想折腾而已。mi50+7900xtx跨卡跑,吐字大概只有10t/s

                                  我目前的理解是
                                  硬體儘量有一致性 否則你多卡型號都不一樣
                                  讓AI也很難設定 它可能會弄錯 你也會被搞混,
                                  Drivers 版本一堆 有的支持 有的不支持 感覺會常常撞牆 或一直卡在硬體調整
                                  會浪費很多tokens 金錢和時間

                                  A 离线
                                  A 离线
                                  abaalei
                                  编写于 最后由 编辑
                                  #26

                                  @kos-or 对的,还好我今天开始gemini的cool down结束,又可以站起来用力蹬了!!

                                  1 条回复 最后回复
                                  0
                                  • kos orK 离线
                                    kos orK 离线
                                    kos or
                                    劳动模范
                                    编写于 最后由 编辑
                                    #27

                                    請問真无审查 /越獄模型有什麼特色 適合讓Hermes 使用嗎?
                                    感覺像是很衝動不聽話的大語言模型?

                                    A 2 条回复 最后回复
                                    0
                                    • A abaalei

                                      @kos-or 哇塞,好东西!mark下来了,以后捡垃圾就搞一张!!!

                                      kos orK 离线
                                      kos orK 离线
                                      kos or
                                      劳动模范
                                      编写于 最后由 编辑
                                      #28

                                      @abaalei 你不是還有一張雙CPU主板 還沒使用 ?這麼多機器設備 ~~~

                                      A 1 条回复 最后回复
                                      0
                                      • kos orK kos or

                                        @abaalei 说:

                                        grok

                                        希望您父親現在一切安好
                                        

                                        Grok 能接API嗎 ? Musk的礦機廠都出租讓Anthropic用了
                                        之前用Grok 試了幾次性感圖 蠻漂亮的 但是又歪歪的

                                        我也是雙卡流 ~有空可以交流一下
                                        那天我讓Hermes 在GPU0 and GPU1 同時安裝了 Gemma-4-12B-MTP
                                        效果不錯 但是工作流還是要繼續研究
                                        目前卡PCIe 一卡只有1GB/s的速度 , 另一卡是32GB/s 無法玩TP 張量並行

                                        因為新的礦機架到了, 之後可能會有第三卡 但好像無法3卡 TP 😞

                                        AGIA 离线
                                        AGIA 离线
                                        AGI
                                        编写于 最后由 编辑
                                        #29

                                        @kos-or 搜索下grok2api,我就这么用的,网上有人分享sso,我导入了几百个,能用,但是不稳定,我就是推动hermes的,和deepseek flash轮流使用

                                        1 条回复 最后回复
                                        1
                                        • A abaalei 被引用 于这个主题
                                        • A 离线
                                          A 离线
                                          abaalei
                                          编写于 最后由 编辑
                                          #30

                                          更新一下昨晚的调参

                                          分享一下针对单卡 7900 XTX 跑 Qwen3.6-27B(DFlash 投机推理)的最新极限调优成果!昨晚经过反复压榨,成功把生成速度推上了新高峰:

                                          📊 7900 XTX 单卡 DFlash 实测成绩:

                                          • 平均生成速度 (Decode MEAN):🚀 84.47 tok/s(在 HumanEval 10-prompt 串行高压测试下跑出,单题峰值突破 108.05 tok/s)
                                          • 平均投机接受长度 (AL):6.29(接受率约 40.8%)

                                          ⚙️ 终极黄金启动参数:

                                          bash
                                          python3 scripts/server.py
                                          --target '/mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf'
                                          --draft models/dflash-draft-3.6-q8_0.gguf
                                          --budget 8
                                          --max-ctx 32768
                                          --fa-window 0
                                          --cache-type-k q8_0
                                          --cache-type-v q8_0
                                          --no-mmap
                                          --tensor-split 0
                                          --tokenizer Qwen/Qwen3.6-27B

                                          💡 核心调优心得(无痛白嫖 4% 速度的秘密):

                                          1. 压榨 KV Cache 带宽(关键!):显式加上 --cache-type-k q8_0 和 --cache-type-v q8_0 后,虽然在 GPU 内部多了一步反量化计算,但由于量化让 KV 缓存的数据量直接减半,极大地缓解了 RDNA3 架构在投机树匹配时的显存带宽压力。实测速度从默认 F16 状态下的 81.19 tok/s 直接飙升到了 84.47 tok/s!而且在 32K 极限上下文下能省下一半的 KV 显存,极大幅度降低了 OOM 的风险!
                                          2. 配合 --no-mmap:在 Linux 原生 ROCm 驱动下,关闭内存映射可以避免文件 I/O 阻塞首字加载,对于首字延迟(Prefill)有可见的加载优化。
                                          3. 配合 --tensor-split 0:强制绑定单卡槽位算子,防止并发时发生莫名其妙的 CPU 回退(Fallback)。
                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组