跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 加入 7900XTX队列 + huihui Qwen3.6-27B 无审查版,驱动Hermes

加入 7900XTX队列 + huihui Qwen3.6-27B 无审查版,驱动Hermes

已定时 已固定 已锁定 已移动 AI硬件
4 帖子 2 发布者 24 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • D 在线
    D 在线
    daydayup
    编写于 最后由 编辑
    #1

    YT看老特视频被种草,退掉了发货途中的Rtx PRO4000,穷逼佬拥抱性价比高的7900xtx.
    618下单的7900xtx今天才有时间折腾。
    主板小雕,板U都是5年前的垃圾了。

    🖥️ ai-server 完整配置 + 性能实测报告


    一、硬件配置

    CPU: Intel Core i5-10400F (6核12线程, 2.9~4.3GHz)
    GPU: AMD Radeon RX 7900 XTX 24GB (蓝宝石 PULSE)
    内存: 16GB DDR4
    Swap: 19GB
    存储: 171GB SSD (可用 83GB)


    二、软件环境

    系统: Ubuntu 24.04.4 LTS
    内核: 6.8.0-124-generic
    ROCm: 7.2.4 (gfx1100)
    Python: 3.12.3 (venv 环境)
    PyTorch: 2.12.1+rocm7.2 (HIP 7.2.53211)


    三、LLM 推理服务

    模型: Qwen 3.6 27B Abliterated (Q4_K_M 量化)
    框架: llama.cpp (systemd 守护进程, ROCm GPU 加速)
    模型大小: ~16GB
    上下文窗口: 131,072 tokens
    KV 缓存: q4_0 量化
    GPU 显存占用: ~18.5GB / 24GB (77%)
    服务端口: 1234 (OpenAI API 兼容)

    启动参数:
    --ctx-size 131072
    -ngl 99 (全层 offload 到 GPU)
    --flash-attn on
    -b 2048 -ub 512
    -ctk q4_0 -ctv q4_0
    --jinja


    四、性能实测数据

    📌 测试方式: 直接调用运行中服务的 OpenAI 兼容 API,非独立 benchmark,反映真实负载表现。

    ▎生成速度 (Decoding)

    短请求 (10-50 tokens): 31~32 tokens/s (~31ms/token)
    中等请求 (200 tokens): 29.6 tokens/s (~34ms/token)
    长请求持续生成 (500+ tokens): 22.9~23.1 tokens/s (~43ms/token)

    ▎Prompt 处理速度 (Prefill)

    17 tokens: 16.9 tokens/s (59ms/token)
    30 tokens: 156.1 tokens/s (6.4ms/token)
    214 tokens: 353.8 tokens/s (2.8ms/token)

    ▎首字延迟 (TTFT)

    冷启动: 1.3 ~ 1.7 秒
    热缓存: < 1 秒


    五、运行状态

    GPU 温度: 边缘 56°C / 核心 67°C / 显存 65°C
    功耗: 空闲 65W / 峰值 300W
    风扇: 安静运行
    服务运行时间: 持续运行,已稳定服务


    六、总结

    24GB 显存跑 27B 量化模型,生成速度稳定在 23 tokens/s,完全满足实时对话需求。Prompt 处理峰值达 354 tokens/s,长上下文理解速度很快。ROCm 在持续生成场景表现稳定,短请求响应更快。首字延迟 1-1.7 秒在可接受范围内。


    求大佬帮忙看看还能怎样进一步优化

    1 条回复 最后回复
    2
    • terryT 在线
      terryT 在线
      terry
      超级版主
      编写于 最后由 编辑
      #2

      不明白你为何换货.....
      另外吐字速度为何只有23,这便低了,长上下文也不至于此。
      没认真看,太长了,内存不够,16G完全无法胜任。

      油管:https://www.youtube.com/@抡锤者

      D 1 条回复 最后回复
      0
      • D 在线
        D 在线
        daydayup
        编写于 最后由 编辑
        #3
        此主題已被删除!
        1 条回复 最后回复
        0
        • terryT terry

          不明白你为何换货.....
          另外吐字速度为何只有23,这便低了,长上下文也不至于此。
          没认真看,太长了,内存不够,16G完全无法胜任。

          D 在线
          D 在线
          daydayup
          编写于 最后由 编辑
          #4

          @terry 还没完全弄懂硬件间的关系,还在继续看你的视频学习,只是618买了显卡和电源跑起来再说,其他硬件都是以前的闲置物品😅。之前都是用的在线模型.

          1 条回复 最后回复
          0

          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

          有了你的建议,这篇帖子会更精彩哦 💗

          注册 登录
          回复
          • 在新帖中回复
          登录后回复
          • 从旧到新
          • 从新到旧
          • 最多赞同


          • 登录

          • 没有帐号? 注册

          • 第一个帖子
            最后一个帖子
          0
          • 版块
          • 最新
          • 标签
          • 热门
          • 用户
          • 群组