<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[加入 7900XTX队列 + huihui Qwen3.6-27B 无审查版，驱动Hermes]]></title><description><![CDATA[<p dir="auto">YT看老特视频被种草，退掉了发货途中的Rtx PRO4000，穷逼佬拥抱性价比高的7900xtx.<br />
618下单的7900xtx今天才有时间折腾。<br />
主板小雕，板U都是5年前的垃圾了。</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f5a5.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--desktop_computer" style="height:23px;width:auto;vertical-align:middle" title="🖥" alt="🖥" />️ ai-server 完整配置 + 性能实测报告</p>
<hr />
<p dir="auto">一、硬件配置</p>
<p dir="auto">CPU: Intel Core i5-10400F (6核12线程, 2.9~4.3GHz)<br />
GPU: AMD Radeon RX 7900 XTX 24GB (蓝宝石 PULSE)<br />
内存: 16GB DDR4<br />
Swap: 19GB<br />
存储: 171GB SSD (可用 83GB)</p>
<hr />
<p dir="auto">二、软件环境</p>
<p dir="auto">系统: Ubuntu 24.04.4 LTS<br />
内核: 6.8.0-124-generic<br />
ROCm: 7.2.4 (gfx1100)<br />
Python: 3.12.3 (venv 环境)<br />
PyTorch: 2.12.1+rocm7.2 (HIP 7.2.53211)</p>
<hr />
<p dir="auto">三、LLM 推理服务</p>
<p dir="auto">模型: Qwen 3.6 27B Abliterated (Q4_K_M 量化)<br />
框架: llama.cpp (systemd 守护进程, ROCm GPU 加速)<br />
模型大小: ~16GB<br />
上下文窗口: 131,072 tokens<br />
KV 缓存: q4_0 量化<br />
GPU 显存占用: ~18.5GB / 24GB (77%)<br />
服务端口: 1234 (OpenAI API 兼容)</p>
<p dir="auto">启动参数:<br />
--ctx-size 131072<br />
-ngl 99 (全层 offload 到 GPU)<br />
--flash-attn on<br />
-b 2048 -ub 512<br />
-ctk q4_0 -ctv q4_0<br />
--jinja</p>
<hr />
<p dir="auto">四、性能实测数据</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4cc.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--pushpin" style="height:23px;width:auto;vertical-align:middle" title="📌" alt="📌" /> 测试方式: 直接调用运行中服务的 OpenAI 兼容 API，非独立 benchmark，反映真实负载表现。</p>
<p dir="auto">▎生成速度 (Decoding)</p>
<p dir="auto">短请求 (10-50 tokens): 31~32 tokens/s (~31ms/token)<br />
中等请求 (200 tokens): 29.6 tokens/s (~34ms/token)<br />
长请求持续生成 (500+ tokens): 22.9~23.1 tokens/s (~43ms/token)</p>
<p dir="auto">▎Prompt 处理速度 (Prefill)</p>
<p dir="auto">17 tokens: 16.9 tokens/s (59ms/token)<br />
30 tokens: 156.1 tokens/s (6.4ms/token)<br />
214 tokens: 353.8 tokens/s (2.8ms/token)</p>
<p dir="auto">▎首字延迟 (TTFT)</p>
<p dir="auto">冷启动: 1.3 ~ 1.7 秒<br />
热缓存: &lt; 1 秒</p>
<hr />
<p dir="auto">五、运行状态</p>
<p dir="auto">GPU 温度: 边缘 56°C / 核心 67°C / 显存 65°C<br />
功耗: 空闲 65W / 峰值 300W<br />
风扇: 安静运行<br />
服务运行时间: 持续运行，已稳定服务</p>
<hr />
<p dir="auto">六、总结</p>
<p dir="auto">24GB 显存跑 27B 量化模型，生成速度稳定在 23 tokens/s，完全满足实时对话需求。Prompt 处理峰值达 354 tokens/s，长上下文理解速度很快。ROCm 在持续生成场景表现稳定，短请求响应更快。首字延迟 1-1.7 秒在可接受范围内。</p>
<hr />
<p dir="auto">求大佬帮忙看看还能怎样进一步优化</p>
]]></description><link>https://lcz.me/topic/754/加入-7900xtx队列-huihui-qwen3.6-27b-无审查版-驱动hermes</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 14:46:19 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/754.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 01 Jul 2026 12:06:02 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 加入 7900XTX队列 + huihui Qwen3.6-27B 无审查版，驱动Hermes on Wed, 01 Jul 2026 14:11:53 GMT]]></title><description><![CDATA[<p dir="auto">M.2硬盘还在路上，后面内存准备升级到64G.  换货是因为PRO4000也是24G。 ，价格感觉很尴尬，不上不下的。后面看需求在选择其他的。</p>
]]></description><link>https://lcz.me/post/8980</link><guid isPermaLink="true">https://lcz.me/post/8980</guid><dc:creator><![CDATA[daydayup]]></dc:creator><pubDate>Wed, 01 Jul 2026 14:11:53 GMT</pubDate></item><item><title><![CDATA[Reply to 加入 7900XTX队列 + huihui Qwen3.6-27B 无审查版，驱动Hermes on Wed, 01 Jul 2026 13:32:21 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 还没完全弄懂硬件间的关系，还在继续看你的视频学习，只是618买了显卡和电源跑起来再说，其他硬件都是以前的闲置物品<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f605.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--sweat_smile" style="height:23px;width:auto;vertical-align:middle" title="😅" alt="😅" />。之前都是用的在线模型.</p>
]]></description><link>https://lcz.me/post/8977</link><guid isPermaLink="true">https://lcz.me/post/8977</guid><dc:creator><![CDATA[daydayup]]></dc:creator><pubDate>Wed, 01 Jul 2026 13:32:21 GMT</pubDate></item><item><title><![CDATA[Reply to 加入 7900XTX队列 + huihui Qwen3.6-27B 无审查版，驱动Hermes on Wed, 01 Jul 2026 13:04:08 GMT]]></title><description><![CDATA[<p dir="auto">不明白你为何换货.....<br />
另外吐字速度为何只有23，这便低了，长上下文也不至于此。<br />
没认真看，太长了，内存不够，16G完全无法胜任。</p>
]]></description><link>https://lcz.me/post/8974</link><guid isPermaLink="true">https://lcz.me/post/8974</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Wed, 01 Jul 2026 13:04:08 GMT</pubDate></item></channel></rss>