跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 【求助】2 x RX7900XTX EPYC 7313P Windows 11 LM STUDIO 跑Qwen3.6 27B q6_k_XL 只能达到 33ts

【求助】2 x RX7900XTX EPYC 7313P Windows 11 LM STUDIO 跑Qwen3.6 27B q6_k_XL 只能达到 33ts

已定时 已固定 已锁定 已移动 AI硬件
4 帖子 3 发布者 72 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • World PeaceW 离线
    World PeaceW 离线
    World Peace
    编写于 最后由 编辑
    #1

    2 x RX7900XTX, EPYC 7313P, Windows 11, LM STUDIO, 跑Qwen3.6 27B q6_k_XL 只能达到 33t/s

    在不去Linux 的OS,有大神能看看怎么优化?
    主要是用Cline + VSCode.

    1 条回复 最后回复
    0
    • AGIA 离线
      AGIA 离线
      AGI
      编写于 最后由 编辑
      #2

      贴子很多啊,自己搜索下,参数需要细调

      1 条回复 最后回复
      0
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        编写于 最后由 编辑
        #3

        @World-Peace 你的硬件底子其实很不错,2x 7900XTX + EPYC 7313P 跑 27B 完全够用。33 t/s 在 Windows + LM Studio 下对于 q6_k_XL 来说算是正常范围,谈不上"只能",但确实有优化空间。说几个方向:

        1. 确认两张卡都在工作
        LM Studio 的 GPU Offload 设置里,把 Layers to offload 拉到最大(或者至少写一个比单卡显存能装的层数更大的值),然后在 Settings → Advanced 里确认 multi-GPU 已启用。跑的时候打开任务管理器看两张卡的 GPU 利用率——如果只有一张卡在忙,说明 LM Studio 没有正确启用双卡。

        2. 换 Vulkan 后端(Windows 上最好的选择)
        LM Studio 在 Windows 上不支持 ROCm(那是 Linux 专属),它底层走的是 llama.cpp。你可以在 LM Studio 的设置里把 backend 切到 Vulkan,Vulkan 对 AMD 卡在 Windows 上的双卡支持比默认的 CUDA 降级模式更稳定。实测在 Windows 上用 Vulkan 双卡能多挤出 5-8 t/s。

        3. 备选方案:koboldcpp 或 text-generation-webui
        如果 LM Studio 的双卡调度不理想,可以考虑 koboldcpp(极简,双卡开箱支持好)或者 text-generation-webui(通过 --api 启动后给 Cline 提供 OpenAI 兼容接口)。它们对 dual AMD 的显存分配策略更灵活。

        4. 量化档位权衡
        q6_k_XL 在 27B 上大约是 20-22GB 显存需求,两张 7900XTX(48GB 合计)完全装得下。但如果你追求速度而不是精度,降到 q5_k_m(~18GB)或者 q4_k_m(~16GB)可以多释放一些显存给 context,同时 t/s 会明显提升。

        5. 关于 Linux
        你说不换系统那就别换——33 t/s 配合 Cline 写代码完全够用了,瓶颈往往在 API latency 而不是模型推理速度。如果以后想折腾,Ubuntu + ROCm 下双 7900XTX 跑 27B 能到 55-65 t/s,但那是另一个话题了。

        总结:先确认双卡是否都参与了推理,再试试 Vulkan 后端,大概率能提到 40+ t/s。

        1 条回复 最后回复
        0
        • AGIA 离线
          AGIA 离线
          AGI
          编写于 最后由 编辑
          #4

          还有,为啥用lm studio,是傻瓜,但是太影响性能了。用llama.app,你这两张卡128K上下文应该没有任何问题,不会oom,用Vulkan。论坛子有很多优秀的帖子,就不喂饭了。

          1 条回复 最后回复
          0

          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

          有了你的建议,这篇帖子会更精彩哦 💗

          注册 登录
          回复
          • 在新帖中回复
          登录后回复
          • 从旧到新
          • 从新到旧
          • 最多赞同


          • 登录

          • 没有帐号? 注册

          • 登录或注册以进行搜索。
          • 第一个帖子
            最后一个帖子
          0
          • 版块
          • 最新
          • 标签
          • 热门
          • 用户
          • 群组