跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

已定时 已固定 已锁定 已移动 LLM讨论区
48 帖子 15 发布者 1.2k 浏览 6 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • williamlouisW 在线
    williamlouisW 在线
    williamlouis
    超级版主
    编写于 最后由 编辑
    #35

    后天才能到货。。。。让你搞的我热血沸腾了。我将在 ubuntu 上跑。版本还是24.太新的版本都不适合我。前期测试 有可能上个桌面版 方便 给你们做报告。或者直接在 Mac上 调用。新卡到了我 Windows 跑下体质。

    个人主页:xlkj.org Telegram https://t.me/xlkjorg

    1 条回复 最后回复
    0
    • williamlouisW 在线
      williamlouisW 在线
      williamlouis
      超级版主
      编写于 最后由 编辑
      #36

      我补充的方案:对。7900XTX 只暴露算力模式接口,Hermes 负责调度。


      7900XTX 算力节点准备

      两个 systemd 服务单元(互斥,同一端口):

      /etc/systemd/system/[email protected]:

      [Unit]
      Description=LLaMA Server %i mode
      After=network.target
      
      [Service]
      Type=simple
      ExecStartPre=/bin/sleep 2
      ExecStart=/usr/local/bin/llama-server \
        -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
        -ngl 99 --no-warmup --host 0.0.0.0 --port 8080 \
        %i
      Restart=on-failure
      
      [Install]
      WantedBy=multi-user.target
      

      启动参数文件:

      /etc/systemd/system/[email protected]/override.conf:

      [Service]
      ExecStart=
      ExecStart=/usr/local/bin/llama-server \
        -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
        -c 8192 --cache-type-k q8_0 --cache-type-v q8_0 \
        -ngl 99 --no-warmup --host 0.0.0.0 --port 8080
      

      /etc/systemd/system/[email protected]/override.conf:

      [Service]
      ExecStart=
      ExecStart=/usr/local/bin/llama-server \
        -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
        -c 131072 --cache-type-k q4_0 --cache-type-v q8_0 \
        -ngl 99 --no-warmup --host 0.0.0.0 --port 8080
      

      Hermes 可调用的切换命令

      # 切 8K 交互模式
      systemctl stop llama-dev@128k; systemctl start llama-dev@8k
      
      # 切 128K 批处理模式  
      systemctl stop llama-dev@8k; systemctl start llama-dev@128k
      

      Hermes 切完后等 5 秒,curl http://7900xtx-ip:8080/health 确认恢复即可下发任务。


      7900XTX 只暴露 8K/128K 两个 systemd 服务单元,Hermes 根据任务类型 systemctl 切换,等端口恢复后调 API。算力节点无状态,切换逻辑全在 Hermes 侧。
      这样基本就可以跑了。具体效果我会出一版帖子。
      这个方案 可以实现 工作机 Mac mini Hermes 工作的需要。

      个人主页:xlkj.org Telegram https://t.me/xlkjorg

      5 1 条回复 最后回复
      2
      • williamlouisW williamlouis

        我补充的方案:对。7900XTX 只暴露算力模式接口,Hermes 负责调度。


        7900XTX 算力节点准备

        两个 systemd 服务单元(互斥,同一端口):

        /etc/systemd/system/[email protected]:

        [Unit]
        Description=LLaMA Server %i mode
        After=network.target
        
        [Service]
        Type=simple
        ExecStartPre=/bin/sleep 2
        ExecStart=/usr/local/bin/llama-server \
          -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
          -ngl 99 --no-warmup --host 0.0.0.0 --port 8080 \
          %i
        Restart=on-failure
        
        [Install]
        WantedBy=multi-user.target
        

        启动参数文件:

        /etc/systemd/system/[email protected]/override.conf:

        [Service]
        ExecStart=
        ExecStart=/usr/local/bin/llama-server \
          -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
          -c 8192 --cache-type-k q8_0 --cache-type-v q8_0 \
          -ngl 99 --no-warmup --host 0.0.0.0 --port 8080
        

        /etc/systemd/system/[email protected]/override.conf:

        [Service]
        ExecStart=
        ExecStart=/usr/local/bin/llama-server \
          -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
          -c 131072 --cache-type-k q4_0 --cache-type-v q8_0 \
          -ngl 99 --no-warmup --host 0.0.0.0 --port 8080
        

        Hermes 可调用的切换命令

        # 切 8K 交互模式
        systemctl stop llama-dev@128k; systemctl start llama-dev@8k
        
        # 切 128K 批处理模式  
        systemctl stop llama-dev@8k; systemctl start llama-dev@128k
        

        Hermes 切完后等 5 秒,curl http://7900xtx-ip:8080/health 确认恢复即可下发任务。


        7900XTX 只暴露 8K/128K 两个 systemd 服务单元,Hermes 根据任务类型 systemctl 切换,等端口恢复后调 API。算力节点无状态,切换逻辑全在 Hermes 侧。
        这样基本就可以跑了。具体效果我会出一版帖子。
        这个方案 可以实现 工作机 Mac mini Hermes 工作的需要。

        5 在线
        5 在线
        566656661
        编写于 最后由 编辑
        #37

        @williamlouis

        這個思路不錯誒, 之前我都是一個暴力超長上下文就算

        也許可以讓自己的hermes在我上下班的時候自己切換

        1 条回复 最后回复
        0
        • williamlouisW 在线
          williamlouisW 在线
          williamlouis
          超级版主
          编写于 最后由 编辑
          #38

          8K/128K
          8K是对话常态化
          128K 作为长任务分析。比如多文件的处理。 是这么用的。

          个人主页:xlkj.org Telegram https://t.me/xlkjorg

          1 条回复 最后回复
          1
          • AGIA 离线
            AGIA 离线
            AGI
            编写于 最后由 编辑
            #39

            Key 和 Value到底哪个可以用4bit而不影响智力?我一直是key中4bit,有人说应该是value用4bit

            1 条回复 最后回复
            0
            • AGIA 离线
              AGIA 离线
              AGI
              编写于 最后由 编辑
              #40

              我上面之前的参数有误,key应该用8bit,value应该用4bit,已经更正了,仅限于llama.cpp,vllm好像不支持分开设置

              1 条回复 最后回复
              0
              • qiao zhifengQ 离线
                qiao zhifengQ 离线
                qiao zhifeng
                编写于 最后由 qiao zhifeng 编辑
                #41

                今天试了下vulkan,qwen27b q4,显卡7900xtx,64k上下文,跑hermes agent,prefill 吊打rocm环境。都是从0开始加载50k和60k的提示词,完全不像ai和社区说的vulkan的首字慢。
                vulkan的:prompt processing, n_tokens = 62284, progress = 1.00, t = 108.65 s / 573.23 tokens per second
                rocm的:prompt processing, n_tokens = 52604, progress = 1.00, t = 314.20 s / 167.42 tokens per second
                参数: -mg 0
                --temp 0.3
                --ctx-size 65536
                -b 2048
                -ub 2048
                --top-p 0.8
                --min-p 0.05
                --repeat-penalty 1.1
                --cache-type-k q8_0
                --cache-type-v q8_0
                --flash-attn on
                --cache-ram -1 --ctx-checkpoints 32 --cache-idle-slots
                --parallel 1
                --cont-batching
                --timeout 600

                5 1 条回复 最后回复
                0
                • qiao zhifengQ qiao zhifeng

                  今天试了下vulkan,qwen27b q4,显卡7900xtx,64k上下文,跑hermes agent,prefill 吊打rocm环境。都是从0开始加载50k和60k的提示词,完全不像ai和社区说的vulkan的首字慢。
                  vulkan的:prompt processing, n_tokens = 62284, progress = 1.00, t = 108.65 s / 573.23 tokens per second
                  rocm的:prompt processing, n_tokens = 52604, progress = 1.00, t = 314.20 s / 167.42 tokens per second
                  参数: -mg 0
                  --temp 0.3
                  --ctx-size 65536
                  -b 2048
                  -ub 2048
                  --top-p 0.8
                  --min-p 0.05
                  --repeat-penalty 1.1
                  --cache-type-k q8_0
                  --cache-type-v q8_0
                  --flash-attn on
                  --cache-ram -1 --ctx-checkpoints 32 --cache-idle-slots
                  --parallel 1
                  --cont-batching
                  --timeout 600

                  5 在线
                  5 在线
                  566656661
                  编写于 最后由 编辑
                  #42

                  @qiao-zhifeng

                  本來Vulkan的對A卡的支持度就好過ROCm的, reddit上面基本一堆人常駐vulkan 😂

                  別太看重ROCm帶來的加速吧, 社區支援跟優化差太遠了

                  1 条回复 最后回复
                  0
                  • S 离线
                    S 离线
                    stxpnet
                    编写于 最后由 terry 编辑
                    #43

                    e440b9c9-606d-4b67-8385-b09832cc2595-image.jpeg
                    我目前自认为的最佳配置,3090 24G显卡,开了思考,思考预算是3072tokens,最大上下文配置为168K,通过了测试.我的K V CACHE都是Q8. 总用时70多秒.我觉得还行

                    1 条回复 最后回复
                    1
                    • X 离线
                      X 离线
                      xiaoyoutiao
                      编写于 最后由 编辑
                      #44

                      @agi 新手请教,Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf我在huggingface找了一圈也没有找到,你在哪里下载? 在HauhauCS的主页下看到Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf 没有MTP版本

                      AGIA 1 条回复 最后回复
                      0
                      • X xiaoyoutiao

                        @agi 新手请教,Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf我在huggingface找了一圈也没有找到,你在哪里下载? 在HauhauCS的主页下看到Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf 没有MTP版本

                        AGIA 离线
                        AGIA 离线
                        AGI
                        编写于 最后由 AGI 编辑
                        #45

                        @xiaoyoutiao

                        奇怪,我也找不到了
                        搜索了下下载命令,文件还能下载:wget https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/resolve/main/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf

                        1 条回复 最后回复
                        0
                        • X 离线
                          X 离线
                          xiaoyoutiao
                          编写于 最后由 编辑
                          #46

                          感谢@AGI https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/tree/main 下面的模型都在,下载了

                          AGIA 1 条回复 最后回复
                          0
                          • X xiaoyoutiao

                            感谢@AGI https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/tree/main 下面的模型都在,下载了

                            AGIA 离线
                            AGIA 离线
                            AGI
                            编写于 最后由 编辑
                            #47

                            @xiaoyoutiao

                            自己部署llm很大的原因是这个无审查版本,现在的gpt和claude,稍微越界,就不回答了。可惜现在qwen智商一般,用的qwopus一样写代码垃圾,等以后新版本吧。

                            1 条回复 最后回复
                            0
                            • williamlouisW 在线
                              williamlouisW 在线
                              williamlouis
                              超级版主
                              编写于 最后由 编辑
                              #48

                              我也测试了。这套方案是可行的。

                              个人主页:xlkj.org Telegram https://t.me/xlkjorg

                              1 条回复 最后回复
                              0

                              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                              有了你的建议,这篇帖子会更精彩哦 💗

                              注册 登录
                              回复
                              • 在新帖中回复
                              登录后回复
                              • 从旧到新
                              • 从新到旧
                              • 最多赞同


                              • 登录

                              • 没有帐号? 注册

                              • 登录或注册以进行搜索。
                              • 第一个帖子
                                最后一个帖子
                              0
                              • 版块
                              • 最新
                              • 标签
                              • 热门
                              • 用户
                              • 群组