跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. Windows 7900XTX 跑本地模型 极限

Windows 7900XTX 跑本地模型 极限

已定时 已固定 已锁定 已移动 AI硬件
5 帖子 5 发布者 421 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • tweeg donkeyT 离线
    tweeg donkeyT 离线
    tweeg donkey
    编写于 最后由 编辑
    #1

    操作系统 Windows 10 专业版
    CPU Intel Core i5-8400 @ 2.80GHz(6核6线程)
    内存 48GB DDR4 2667MHz(2×8GB + 2×16GB)
    显卡 AMD Radeon RX 7900 XTX 24GB GDDR6
    本机 LM Studio + Qwen3.6 27b Q4_k_m 配置见下图
    2ff6ac07-a35a-41ee-bdd0-07ba8ab4459b-image.jpeg
    07983be9-3be3-4002-bf35-b563177f2ea7-image.jpeg
    26db3f43-9028-461c-8f0e-30ae6e8af53a-image.jpeg
    现在速度可以稳定跑到30tps 左右 请问 这个是不是Windows系统的极限了?

    1 条回复 最后回复
    0
    • XiaoteX 离线
      XiaoteX 离线
      Xiaote
      劳动模范
      编写于 最后由 编辑
      #2

      @tweeg donkey 30 tps 在 Windows 上用 7900 XTX 跑 Qwen 3.6 27b Q4_K_M 已经是很不错的成绩了,这个速度读模型输出完全够用(比人眼阅读快好几倍)。

      关于是不是 Windows 极限这个问题,可以分几点说:

      1. Vulkan 后端的 overhead:LM Studio 在 Windows 上走的是 Vulkan 推理,相比 Linux 上的 ROCm/HIP 后端确实有 20-30% 的性能损失。同样一张 7900 XTX + 同样的模型,Linux ROCm 下一般能跑到 45-55 tps。

      2. GPU 利用率:你可以开任务管理器看看 GPU Compute 利用率是否跑满了。如果 Vulkan 调用导致 GPU 频繁空闲(利用率 < 90%),可以试试 koboldcpp 的 Vulkan 后端,有时单线程推理效率更高。

      3. KV cache 量化:LM Studio 里确认一下是否开启了 KV cache quantization(Q4_K 或 Q8),27b 全精度 KV cache 在长上下文下会吃不少带宽。

      4. CPU 瓶颈:i5-8400 6C6T 对于 Qwen 3.6 27b 这种 27B 参数的纯推理其实不是瓶颈,但如果开了 prompt processing 的 CPU offloading,CPU 速度确实会拖后腿。

      总结:30 tps 已经是 Windows 上 AMD 显卡的「正常水平」,不是极限但也不算低。如果想突破,最直接的办法是装个 Linux 双系统用 ROCm 跑——但除非你有刚需(比如跑长上下文),否则 30 tps 日常用已经很舒服了。

      1 条回复 最后回复
      0
      • CHIA AN YANGC 离线
        CHIA AN YANGC 离线
        CHIA AN YANG
        技术大牛
        编写于 最后由 编辑
        #3

        我之前有發文分享win11+vulken可以到4-50,可以爬一下

        1 条回复 最后回复
        1
        • M 离线
          M 离线
          mark
          超凡大师
          编写于 最后由 编辑
          #4

          不错啊, 30 tokens/s 已经可以了. 顺畅 点 就是 50tokens/s ,本地模型 别苛求太多了.

          1 条回复 最后回复
          0
          • I 离线
            I 离线
            iamvirus
            编写于 最后由 iamvirus 编辑
            #5

            vllm0.23.0 +lmcache is here PCIE5 +双7900xtx tp=2 体验非常棒

            1 条回复 最后回复
            0

            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

            有了你的建议,这篇帖子会更精彩哦 💗

            注册 登录
            回复
            • 在新帖中回复
            登录后回复
            • 从旧到新
            • 从新到旧
            • 最多赞同


            • 登录

            • 没有帐号? 注册

            • 第一个帖子
              最后一个帖子
            0
            • 版块
            • 最新
            • 标签
            • 热门
            • 用户
            • 群组