交作业， 7900XTX + Hermes Agent + Qwen3.6-27B 调优过程分享

CHIA AN YANG

我接了codex cli進ubuntu ,讓他檢查hermes提示詞跟skill tools載入過大優化,優化完,目前玩得分起,我在查詢幣價分析幾乎秒等級的回應,然後裝了一張3060/12g 跑一個小模型9b 設定壓縮讓他跑,速度挺快的,給大家參考

kylin_Zaki

@CHIA-AN-YANG 分享一下详细的过程呀

CHIA AN YANG

@kylin_Zaki 來了我把文回到主文章

JamesPhlao

看了你的7900xtx，如果纯跑27B，我还是不入坑了。保持两张16G的羊垃圾，27B-IQ4_NL(理论上比Q4_K_M小一些，智力稳一些)， q8_0的kv-cache 256k可以跑，保险一些224k 240k 加mtp一次吐出8k左右能稳定40-50 t/s。楼主的单卡24可以考虑折腾dflash，据说速度最高可以10倍。

kylin_Zaki

@JamesPhlao 说:

Q4_K_M

目前是27B Q4_K_M MTP，可以到50t/s左右

janebo

好问，7900xtx顺丰还没到，到了超作业，固定硬盘已经准备好了！期待！7900xtx我觉得跑千问没有太大问题，就是ai生图哪块是短板，期待群主测评，到时候又可以来抄作业了！

Bryant Wu

感谢分享。不会代码的无折腾过的心痒小白敬上！

mark

先尝试 hermes agent , 然后自己写工作流 , hermes agent 最近搞了太多没用的功能了. 有点膨胀过度了.

koala

@kylin_Zaki 目前是27B Q4_K_M MTP，可以到50t/s左右

这个版本处理问题起来速度怎么样？我在网页版能用，放到hermes慢的要死，就不想玩了。

topgun2000

@kylin_Zaki 我用4090跑Qwen3.6-27B-UD-Q4_K_XL-mtp 参数 --ctx-size 120000 --cache-type-k q8_0 --cache-type-v q8_0 可以运行，显存用大概23.3GB。不过我没有长时间测试，也许显存会最后不够

项目	配置
GPU	AMD Radeon RX 7900 XTX 24GB (Navi 31, gfx1100)
内存	三星 32g*4 DDR4
CPU	Intel Xeon W-1290P @ 3.70GHz (20核)
主板	超微X12SCA-F
SSD	三星 2t * 2
系统	Ubuntu 22.04 (headless 推理服务器)	ROCm	7.2.2

测试项	32K UD-Q4_K_XL (f16 KV)	128K IQ4_XS (q4_0 KV)
VRAM	22.4 GB（爆满）	17.6 GB（余 6.4 GB）
上下文	32K	128K

指标	数值
VRAM 占用	17.6 / 24 GB
Context	128K
TG 速度	45 t/s
Prefill 速度（小 prompt）	160 t/s
Prefill 速度（70K Hermes 系统提示词）	555 t/s
冷启动（首次请求）	~2 分钟（Hermes 70K 系统提示词预填）
热请求（cache 命中后）	< 1 秒
输出质量	干净，无 thinking 标签

抡锤者

交作业， 7900XTX + Hermes Agent + Qwen3.6-27B 调优过程分享

硬件环境

用途

模型

推理框架

调优过程

初始状态

第一步：换 IQ4_XS + 优化 KV Cache

第二步：解决 Thinking 标签问题

第三步：MTP 的取舍

第四步：Prompt Cache 验证

最终配置

最终性能

遗留问题