跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

已定时 已固定 已锁定 已移动 LLM讨论区
48 帖子 15 发布者 1.2k 浏览 6 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • qiao zhifengQ 离线
    qiao zhifengQ 离线
    qiao zhifeng
    编写于 最后由 qiao zhifeng 编辑
    #41

    今天试了下vulkan,qwen27b q4,显卡7900xtx,64k上下文,跑hermes agent,prefill 吊打rocm环境。都是从0开始加载50k和60k的提示词,完全不像ai和社区说的vulkan的首字慢。
    vulkan的:prompt processing, n_tokens = 62284, progress = 1.00, t = 108.65 s / 573.23 tokens per second
    rocm的:prompt processing, n_tokens = 52604, progress = 1.00, t = 314.20 s / 167.42 tokens per second
    参数: -mg 0
    --temp 0.3
    --ctx-size 65536
    -b 2048
    -ub 2048
    --top-p 0.8
    --min-p 0.05
    --repeat-penalty 1.1
    --cache-type-k q8_0
    --cache-type-v q8_0
    --flash-attn on
    --cache-ram -1 --ctx-checkpoints 32 --cache-idle-slots
    --parallel 1
    --cont-batching
    --timeout 600

    5 1 条回复 最后回复
    0
    • qiao zhifengQ qiao zhifeng

      今天试了下vulkan,qwen27b q4,显卡7900xtx,64k上下文,跑hermes agent,prefill 吊打rocm环境。都是从0开始加载50k和60k的提示词,完全不像ai和社区说的vulkan的首字慢。
      vulkan的:prompt processing, n_tokens = 62284, progress = 1.00, t = 108.65 s / 573.23 tokens per second
      rocm的:prompt processing, n_tokens = 52604, progress = 1.00, t = 314.20 s / 167.42 tokens per second
      参数: -mg 0
      --temp 0.3
      --ctx-size 65536
      -b 2048
      -ub 2048
      --top-p 0.8
      --min-p 0.05
      --repeat-penalty 1.1
      --cache-type-k q8_0
      --cache-type-v q8_0
      --flash-attn on
      --cache-ram -1 --ctx-checkpoints 32 --cache-idle-slots
      --parallel 1
      --cont-batching
      --timeout 600

      5 在线
      5 在线
      566656661
      编写于 最后由 编辑
      #42

      @qiao-zhifeng

      本來Vulkan的對A卡的支持度就好過ROCm的, reddit上面基本一堆人常駐vulkan 😂

      別太看重ROCm帶來的加速吧, 社區支援跟優化差太遠了

      1 条回复 最后回复
      0
      • S 离线
        S 离线
        stxpnet
        编写于 最后由 terry 编辑
        #43

        e440b9c9-606d-4b67-8385-b09832cc2595-image.jpeg
        我目前自认为的最佳配置,3090 24G显卡,开了思考,思考预算是3072tokens,最大上下文配置为168K,通过了测试.我的K V CACHE都是Q8. 总用时70多秒.我觉得还行

        1 条回复 最后回复
        1
        • X 离线
          X 离线
          xiaoyoutiao
          编写于 最后由 编辑
          #44

          @agi 新手请教,Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf我在huggingface找了一圈也没有找到,你在哪里下载? 在HauhauCS的主页下看到Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf 没有MTP版本

          AGIA 1 条回复 最后回复
          0
          • X xiaoyoutiao

            @agi 新手请教,Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf我在huggingface找了一圈也没有找到,你在哪里下载? 在HauhauCS的主页下看到Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf 没有MTP版本

            AGIA 离线
            AGIA 离线
            AGI
            编写于 最后由 AGI 编辑
            #45

            @xiaoyoutiao

            奇怪,我也找不到了
            搜索了下下载命令,文件还能下载:wget https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/resolve/main/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf

            1 条回复 最后回复
            0
            • X 离线
              X 离线
              xiaoyoutiao
              编写于 最后由 编辑
              #46

              感谢@AGI https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/tree/main 下面的模型都在,下载了

              AGIA 1 条回复 最后回复
              0
              • X xiaoyoutiao

                感谢@AGI https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/tree/main 下面的模型都在,下载了

                AGIA 离线
                AGIA 离线
                AGI
                编写于 最后由 编辑
                #47

                @xiaoyoutiao

                自己部署llm很大的原因是这个无审查版本,现在的gpt和claude,稍微越界,就不回答了。可惜现在qwen智商一般,用的qwopus一样写代码垃圾,等以后新版本吧。

                1 条回复 最后回复
                0
                • williamlouisW 在线
                  williamlouisW 在线
                  williamlouis
                  超级版主
                  编写于 最后由 编辑
                  #48

                  我也测试了。这套方案是可行的。

                  个人主页:xlkj.org Telegram https://t.me/xlkjorg

                  1 条回复 最后回复
                  0

                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                  有了你的建议,这篇帖子会更精彩哦 💗

                  注册 登录
                  回复
                  • 在新帖中回复
                  登录后回复
                  • 从旧到新
                  • 从新到旧
                  • 最多赞同


                  • 登录

                  • 没有帐号? 注册

                  • 登录或注册以进行搜索。
                  • 第一个帖子
                    最后一个帖子
                  0
                  • 版块
                  • 最新
                  • 标签
                  • 热门
                  • 用户
                  • 群组