加入 7900XTX队列 + huihui Qwen3.6-27B 无审查版，驱动Hermes

daydayup

YT看老特视频被种草，退掉了发货途中的Rtx PRO4000，穷逼佬拥抱性价比高的7900xtx.
618下单的7900xtx今天才有时间折腾。
主板小雕，板U都是5年前的垃圾了。

️ ai-server 完整配置 + 性能实测报告

一、硬件配置

CPU: Intel Core i5-10400F (6核12线程, 2.9~4.3GHz)
GPU: AMD Radeon RX 7900 XTX 24GB (蓝宝石 PULSE)
内存: 16GB DDR4
Swap: 19GB
存储: 171GB SSD (可用 83GB)

二、软件环境

系统: Ubuntu 24.04.4 LTS
内核: 6.8.0-124-generic
ROCm: 7.2.4 (gfx1100)
Python: 3.12.3 (venv 环境)
PyTorch: 2.12.1+rocm7.2 (HIP 7.2.53211)

三、LLM 推理服务

模型: Qwen 3.6 27B Abliterated (Q4_K_M 量化)
框架: llama.cpp (systemd 守护进程, ROCm GPU 加速)
模型大小: ~16GB
上下文窗口: 131,072 tokens
KV 缓存: q4_0 量化
GPU 显存占用: ~18.5GB / 24GB (77%)
服务端口: 1234 (OpenAI API 兼容)

启动参数:
--ctx-size 131072
-ngl 99 (全层 offload 到 GPU)
--flash-attn on
-b 2048 -ub 512
-ctk q4_0 -ctv q4_0
--jinja

四、性能实测数据

测试方式: 直接调用运行中服务的 OpenAI 兼容 API，非独立 benchmark，反映真实负载表现。

▎生成速度 (Decoding)

短请求 (10-50 tokens): 31~32 tokens/s (~31ms/token)
中等请求 (200 tokens): 29.6 tokens/s (~34ms/token)
长请求持续生成 (500+ tokens): 22.9~23.1 tokens/s (~43ms/token)

▎Prompt 处理速度 (Prefill)

17 tokens: 16.9 tokens/s (59ms/token)
30 tokens: 156.1 tokens/s (6.4ms/token)
214 tokens: 353.8 tokens/s (2.8ms/token)

▎首字延迟 (TTFT)

冷启动: 1.3 ~ 1.7 秒
热缓存: < 1 秒

五、运行状态

GPU 温度: 边缘 56°C / 核心 67°C / 显存 65°C
功耗: 空闲 65W / 峰值 300W
风扇: 安静运行
服务运行时间: 持续运行，已稳定服务

六、总结

24GB 显存跑 27B 量化模型，生成速度稳定在 23 tokens/s，完全满足实时对话需求。Prompt 处理峰值达 354 tokens/s，长上下文理解速度很快。ROCm 在持续生成场景表现稳定，短请求响应更快。首字延迟 1-1.7 秒在可接受范围内。

求大佬帮忙看看还能怎样进一步优化

terry

不明白你为何换货.....
另外吐字速度为何只有23，这便低了，长上下文也不至于此。
没认真看，太长了，内存不够，16G完全无法胜任。

daydayup

此主題已被删除！

daydayup

@terry 还没完全弄懂硬件间的关系，还在继续看你的视频学习，只是618买了显卡和电源跑起来再说，其他硬件都是以前的闲置物品。之前都是用的在线模型.

抡锤者

加入 7900XTX队列 + huihui Qwen3.6-27B 无审查版，驱动Hermes