跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 分享自己的經驗 # 7900 XTX 本地 LLM 優化實測報告(Qwen3.6-27B)

分享自己的經驗 # 7900 XTX 本地 LLM 優化實測報告(Qwen3.6-27B)

已定时 已固定 已锁定 已移动 LLM讨论区
25 帖子 10 发布者 1.2k 浏览 3 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT terry

    @bin-flamebox 5500很便宜,Q8可以开128k,研究下Turboquant,看下LLM区的几个置顶帖子,弄好了可以开256k。

    CHIA AN YANGC 离线
    CHIA AN YANGC 离线
    CHIA AN YANG
    技术大牛
    发表于 最后由 编辑
    #16

    @terry

    @Xiaote 研究開128K後是可以跑,但是回應就超級慢...

    1 条回复 最后回复
    0
    • A 离线
      A 离线
      asd2667
      发表于 最后由 编辑
      #17

      654b7b3c-338b-4907-b757-a2c036840d7d-image.jpeg 7900xtx 32G X99 大概40-50t/s

      1 条回复 最后回复
      3
      • terryT terry 于 将此主题固定
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        劳动模范
        发表于 最后由 编辑
        #18

        @CHIA-AN-YANG 128K上下文确实会让7900 XTX的LLM推理速度明显下降,这是正常的。有两个方向可以优化:

        1. 精简上下文长度:如果不是必须128K,可以试试在llama.cpp里用 --ctx-size 32768 限制到32K。对于大部分Agent任务(Hermes、代码补全),32K完全够用,Prefill速度能快3-4倍。只有在处理超长文档或完整代码库时才需要128K。

        2. KV Cache量化:用 --kv-cache-type q4_0 可以显著减少128K上下文时的显存占用和带宽压力,Prefill能快一些。7900 XTX的显存带宽虽然高,但128K的KV Cache体积很大,量化后缓存更紧凑。

        3. MTP(Multi-Token Prediction):如果还没开,试试llama.cpp的MTP模式(需要支持MTP的模型,Qwen 3.6 27B支持),Token生成速度能提升20-30%。

        总结:日常用32K上下文 + Q4 KV Cache,需要处理长文档时再切换到128K。这样既保证了日常速度,又保留了大上下文能力。

        1 条回复 最后回复
        0
        • Chang Ching-ChunC 离线
          Chang Ching-ChunC 离线
          Chang Ching-Chun
          发表于 最后由 编辑
          #19

          感謝大大無私分享😊

          1 条回复 最后回复
          0
          • 张鑫磊张 张鑫磊 于 引用了 此主题
          • Kiner LiuK 离线
            Kiner LiuK 离线
            Kiner Liu
            发表于 最后由 编辑
            #20

            謝謝樓主分享,我也成功在W7900上面跑Qwen3.6 27b Q4 MTP模型了,也掛了圖形識別模型成功。我用實際路徑的設定成功。輸出速度部分從原本的20t/s有增加到50t/s左右,從速度勉強可接受變成速度感覺順暢。更重要的是我也同時學會用llama.cpp在windows11架server了! 這軟體穩定度比lmstudio更好,模型載入速度超順暢。

            @echo off
            "D:\llama.cpp\build\bin\llama-server.exe" ^
            -m "D:\llama.cpp\Qwen3.6-27B-MTP-Q4_K_M.gguf" ^
            --mmproj "D:\llama.cpp\mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
            --device Vulkan0 -ngl 999 -c 262144 ^
            --temp 0.4 ^
            --no-mmap ^
            --api-key "*******" ^
            -ctk q4_0 -ctv q4_0 -np 1 ^
            --spec-type draft-mtp --spec-draft-n-max 3 ^
            --reasoning off -fa 1 ^
            --port 8081 --host 0.0.0.0
            pause

            terryT CHIA AN YANGC 2 条回复 最后回复
            2
            • Kiner LiuK Kiner Liu

              謝謝樓主分享,我也成功在W7900上面跑Qwen3.6 27b Q4 MTP模型了,也掛了圖形識別模型成功。我用實際路徑的設定成功。輸出速度部分從原本的20t/s有增加到50t/s左右,從速度勉強可接受變成速度感覺順暢。更重要的是我也同時學會用llama.cpp在windows11架server了! 這軟體穩定度比lmstudio更好,模型載入速度超順暢。

              @echo off
              "D:\llama.cpp\build\bin\llama-server.exe" ^
              -m "D:\llama.cpp\Qwen3.6-27B-MTP-Q4_K_M.gguf" ^
              --mmproj "D:\llama.cpp\mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
              --device Vulkan0 -ngl 999 -c 262144 ^
              --temp 0.4 ^
              --no-mmap ^
              --api-key "*******" ^
              -ctk q4_0 -ctv q4_0 -np 1 ^
              --spec-type draft-mtp --spec-draft-n-max 3 ^
              --reasoning off -fa 1 ^
              --port 8081 --host 0.0.0.0
              pause

              terryT 离线
              terryT 离线
              terry
              超级版主
              发表于 最后由 编辑
              #21

              @Kiner-Liu 老弟你这张卡48G,虽然在数据中心算是垃圾,但是在个人市场是神器啊,这卡可不便宜,应该相当于48G的xtx,给分享下数据呗。弄些截图,运行日志,comfyui LLM都测试下。我们也学习下,我好云一期。

              油管:https://www.youtube.com/@抡锤者

              1 条回复 最后回复
              0
              • terryT terry

                @bin-flamebox 发测试结果来参考下。

                bin flameboxB 离线
                bin flameboxB 离线
                bin flamebox
                发表于 最后由 bin flamebox 编辑
                #22

                @terry 532f257e-4689-478c-a671-b9e895a90b91.png 051632d7-3792-402d-bfbf-41b4cde8580f.png 7f44026d-164e-463d-879c-d67ac69cf5bc.png 7cc7b206-3e04-4b35-b78b-5c5f18787afd.png
                拿到手了。一开始用的是linux,一通环境全部装好了,什么rocm、vulkan乱七八糟的。本来挺顺的,但后来跑comfyui后却莫名卡死了,然后就不认驱动了😧 。怎么反复重装都没用,就算恢复到最开始的系统快照也是这样,莫名其妙!想一想,还是装回windows好了。。。
                使用llama.cpp的vulkan后端,配合最新整合mtp的主线编译+mtp专用的量化模型。跑出的成绩还行吧。预填充500-600tk/s,输出有36-65tk/s。上下文我只拉到128k,显存占用不到21个G。
                接入到claud code后,实际用起来比预期还好一点。果然预填充速度才是最重要的,如果当初买r9700,可能要差一截

                terryT 1 条回复 最后回复
                0
                • bin flameboxB bin flamebox

                  @terry 532f257e-4689-478c-a671-b9e895a90b91.png 051632d7-3792-402d-bfbf-41b4cde8580f.png 7f44026d-164e-463d-879c-d67ac69cf5bc.png 7cc7b206-3e04-4b35-b78b-5c5f18787afd.png
                  拿到手了。一开始用的是linux,一通环境全部装好了,什么rocm、vulkan乱七八糟的。本来挺顺的,但后来跑comfyui后却莫名卡死了,然后就不认驱动了😧 。怎么反复重装都没用,就算恢复到最开始的系统快照也是这样,莫名其妙!想一想,还是装回windows好了。。。
                  使用llama.cpp的vulkan后端,配合最新整合mtp的主线编译+mtp专用的量化模型。跑出的成绩还行吧。预填充500-600tk/s,输出有36-65tk/s。上下文我只拉到128k,显存占用不到21个G。
                  接入到claud code后,实际用起来比预期还好一点。果然预填充速度才是最重要的,如果当初买r9700,可能要差一截

                  terryT 离线
                  terryT 离线
                  terry
                  超级版主
                  发表于 最后由 编辑
                  #23

                  @bin-flamebox 你Linux有什么问题?脚本去下载AMD官方的一键安装脚本,问Gemini,和它说清楚,肯定没问题的。

                  油管:https://www.youtube.com/@抡锤者

                  bin flameboxB 1 条回复 最后回复
                  0
                  • terryT terry

                    @bin-flamebox 你Linux有什么问题?脚本去下载AMD官方的一键安装脚本,问Gemini,和它说清楚,肯定没问题的。

                    bin flameboxB 离线
                    bin flameboxB 离线
                    bin flamebox
                    发表于 最后由 bin flamebox 编辑
                    #24

                    @terry 一开始没有问题,啥都装好了,跑llm一切正常。就是跑了个comfyui后不认驱动了。。。
                    之前测试过,如果跑llm的话,现在vulkan比rocm好太多了。
                    现在还是觉得装回windows方便不少,性能基本差不了多少,关键我不是24小时开机使用,偶尔直接玩玩游戏,win更合适
                    现在comfyui有windows桌面版一键直装了,直接内置装好rocm需要的python虚拟环境,比自己github clone方便很多了

                    1 条回复 最后回复
                    1
                    • 系统 于 取消固定此主题
                    • Kiner LiuK Kiner Liu

                      謝謝樓主分享,我也成功在W7900上面跑Qwen3.6 27b Q4 MTP模型了,也掛了圖形識別模型成功。我用實際路徑的設定成功。輸出速度部分從原本的20t/s有增加到50t/s左右,從速度勉強可接受變成速度感覺順暢。更重要的是我也同時學會用llama.cpp在windows11架server了! 這軟體穩定度比lmstudio更好,模型載入速度超順暢。

                      @echo off
                      "D:\llama.cpp\build\bin\llama-server.exe" ^
                      -m "D:\llama.cpp\Qwen3.6-27B-MTP-Q4_K_M.gguf" ^
                      --mmproj "D:\llama.cpp\mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
                      --device Vulkan0 -ngl 999 -c 262144 ^
                      --temp 0.4 ^
                      --no-mmap ^
                      --api-key "*******" ^
                      -ctk q4_0 -ctv q4_0 -np 1 ^
                      --spec-type draft-mtp --spec-draft-n-max 3 ^
                      --reasoning off -fa 1 ^
                      --port 8081 --host 0.0.0.0
                      pause

                      CHIA AN YANGC 离线
                      CHIA AN YANGC 离线
                      CHIA AN YANG
                      技术大牛
                      发表于 最后由 编辑
                      #25

                      @Kiner-Liu 说:

                      勉強可接受變成速度感覺順暢。更重要的是我也同時學會用llama.cpp在windows11架server了! 這軟體穩定度比lmstudio更好,模型載入速度超順暢。

                      @echo off
                      "D:\llama.cpp\build\bin\llama-server.exe" ^
                      -m "D:\llama.cpp\Qwen3.6-27B-MTP-Q4_K_M.gguf" ^
                      --mmproj "D:\llama.cpp\mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
                      --device Vulkan0 -ngl 999 -c 262144 ^
                      --temp 0.4 ^
                      --no-mmap ^
                      --api-key "*******" ^
                      -ctk q4_0 -ctv q4_0 -np 1 ^

                      恭喜啦!~這張卡很划算的

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组