<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[还以为会很折腾，没想到一下就好了弄好了：7900xtx]]></title><description><![CDATA[<p dir="auto">618 买的 7900xtx + 1200w金牌电源套装，6300左右。<br />
有个闲置的老服务器，E52670 v2（原本是V1，听说没有pcie atomics，花了70块钱买了两块V2换上）64G ddr3，华硕Z9PA-D8主板，去年送人都没人要，今年拿来跑hermes了。<br />
到货之后，就换上电源，插上显卡，开机。<br />
配置如下：</p>
<pre><code>Hardware: ASUS Z9PA-D8 + 2x E5-2670 V2 + 64GB DDR3 ECC + RX 7900 XTX 24GB
OS: Ubuntu 24.04 Server
Driver: Mesa 26.1.2 (RADV NAVI31)
Backend: Vulkan
llama.cpp: b9664 + 最新版自编译
</code></pre>
<p dir="auto">两个模型：<br />
Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf<br />
Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-APEX-I-Compact.gguf<br />
配对应的mmproj 。</p>
<p dir="auto">启动脚本：<br />
27B：</p>
<pre><code>#!/bin/bash

# 1. 注入 AMD Vulkan 专属性能优化变量
export GGML_VK_ALLOW_GRAPHICS_QUEUE=1
export GGML_VK_VISIBLE_DEVICES=0

# 2. 启动服务
exec /data/llamacpp/llama-server-active \
   -m /data/models/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf \
   --mmproj /data/models/mmproj-27B-F16.gguf \
   -ngl 999 \
   -c 131072\
   -np 1 \
   -ctk q8_0 -ctv q8_0 \
   -fa on \
   --image-min-tokens 1024 \
   --jinja \
   --chat-template-file /data/models/fix-chat_template.jinja \
   --spec-type draft-mtp --spec-draft-n-max 2 \
   --host 0.0.0.0 \
   --port 7890 \
   --api-key xxxxxxx \
   --alias qwen-36-27B\
   --metrics
</code></pre>
<p dir="auto">35B：</p>
<pre><code>#!/bin/bash

# 1. 注入 AMD Vulkan 专属性能优化变量
export GGML_VK_ALLOW_GRAPHICS_QUEUE=1
export GGML_VK_VISIBLE_DEVICES=0

# 2. 启动服务
exec /data/llamacpp/llama-server-active \
   -m /data/models/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-APEX-I-Compact.gguf \
   --mmproj /data/models/mmproj-35B-A3B-F16.gguf \
   -ngl 999 \
   -c 262144 \
   -np 1 \
   -b 2048 -ub 2048 \
   -ctk q4_0 -ctv q4_0 \
   -fa on \
   --cache-reuse 4096 \
   --image-min-tokens 1024 \
   --jinja \
   --chat-template-file /data/models/fix-chat_template.jinja \
   --host 0.0.0.0 \
   --port 7890 \
   --api-key xxxxxxx \
   --alias qwen-36-35BA3B \
   --metrics
</code></pre>
<p dir="auto"><strong>速度情况：<br />
Qwen3.6 35BA3B：开启后约剩余4G显存</strong></p>
<p dir="auto"><strong>简单测试了一个58000 token 大文本（约10万汉字）prefill 大概2000，decode 大概116-117。</strong><br />
<img src="https://upload.lcz.me/uploads/c8afbdb8-ba0f-49db-82b5-4c9b56644c15.jpeg" alt="82f11808-2e67-4966-9ae9-707de2e9af9f-image.jpeg" class=" img-fluid img-markdown" /><br />
<strong>简单测试问答与千字左右文本生成：decode速度大概 130+</strong><br />
<img src="https://upload.lcz.me/uploads/4bc09541-462b-42a0-a55f-c332aedacf65.jpeg" alt="bbd807d7-3159-4566-a759-bcde0bc22022-image.jpeg" class=" img-fluid img-markdown" /><br />
图片分析速度跟大文本差不多，不浪费资源了。</p>
<p dir="auto"><strong>Qwen3.6 27B，开启后约剩余1G显存</strong></p>
<p dir="auto"><strong><strong>58000token 大文本：prefill 平均600，decode 大概45。</strong></strong><br />
<img src="https://upload.lcz.me/uploads/ff810e8a-ae3b-457e-a4e9-377e9c076c9e.jpeg" alt="8e04cbcc-9c55-48bb-b9dd-02946b26882a-image.jpeg" class=" img-fluid img-markdown" /><br />
<strong>简单问答千字左右文本生成：decode 大概 70+</strong><br />
<img src="https://upload.lcz.me/uploads/f7dc9aa6-f0db-4dcf-ab66-e01234d4333e.jpeg" alt="3b538646-ffd1-4116-b3b5-f7c0bc4c81af-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">之前是用5090D32G vllm Qwen3.6-27B nvfp4量化。速度大概prefill 7000+ decode 200+。7900xtx 跑 35BA3B效果勉强能接近。目前就以35BA3B为主要模型在运行。</p>
<p dir="auto">用途：<br />
1 hermes 底座模型，配合修改过的jinja模板，实测没有出现bug，日常工作效果凑合。我不用hermes 开发，纯维护一些自动化脚本，rag库，搜索引擎服务之类的。<br />
2 RSS重度使用者，vibe了一个自用的RSS阅读器，BYOK，无限token没心理负担，用llm实现快速新闻归类，新闻摘要，注意力等级标签等等。适合不喜欢推荐算法，希望保持大量阅读的用户：<a href="https://github.com/bemoons/KickRSS" rel="nofollow ugc">https://github.com/bemoons/KickRSS</a><br />
3 沉浸式翻译，ocr，各种小ai应用等等。</p>
]]></description><link>https://lcz.me/topic/672/还以为会很折腾-没想到一下就好了弄好了-7900xtx</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 10:53:06 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/672.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 23 Jun 2026 08:07:33 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 还以为会很折腾，没想到一下就好了弄好了：7900xtx on Wed, 24 Jun 2026 13:11:12 GMT]]></title><description><![CDATA[<p dir="auto">点赞 收藏，也打算入7900XTX</p>
]]></description><link>https://lcz.me/post/8152</link><guid isPermaLink="true">https://lcz.me/post/8152</guid><dc:creator><![CDATA[hanyoud]]></dc:creator><pubDate>Wed, 24 Jun 2026 13:11:12 GMT</pubDate></item><item><title><![CDATA[Reply to 还以为会很折腾，没想到一下就好了弄好了：7900xtx on Wed, 24 Jun 2026 01:17:46 GMT]]></title><description><![CDATA[<p dir="auto">补充一点，测试了几个二进制版本，B9664版本的llamacpp vulkan 是速度最快的。最新的自编译版本B9755 速度也很快。两个版本之间的B975x 都会有10%左右的速度损失。应该是llamacpp主线在针对mtp做优化。</p>
]]></description><link>https://lcz.me/post/8078</link><guid isPermaLink="true">https://lcz.me/post/8078</guid><dc:creator><![CDATA[bwghh]]></dc:creator><pubDate>Wed, 24 Jun 2026 01:17:46 GMT</pubDate></item><item><title><![CDATA[Reply to 还以为会很折腾，没想到一下就好了弄好了：7900xtx on Tue, 23 Jun 2026 15:54:17 GMT]]></title><description><![CDATA[<p dir="auto">其实这玩意现在太多人跑过，是非常确定的路，comfyUI都被大量验证了，AMD的生态已经很成熟了，只是少数算子和节点支持不好。可以补充一点自己的装机图片，更加真实。</p>
<p dir="auto">论坛只能上传2M以内的附件，理论上可以开放大文件上传，因为架构和云端资源都支持，但是权限颗粒度不够，我以后稍微研究下，让高等级的人可以上传100M的附件。</p>
]]></description><link>https://lcz.me/post/8038</link><guid isPermaLink="true">https://lcz.me/post/8038</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Tue, 23 Jun 2026 15:54:17 GMT</pubDate></item><item><title><![CDATA[Reply to 还以为会很折腾，没想到一下就好了弄好了：7900xtx on Tue, 23 Jun 2026 14:35:27 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/nami-ryuu" aria-label="Profile: nami-ryuu">@<bdi>nami-ryuu</bdi></a></p>
<p dir="auto">好的，这个模板是从qwen3.5就在用的，主要是修复qwen系列工具调用标签的问题。<br />
论坛好像没办法上传文件？<br />
放在这里了：<a href="https://github.com/bemoons/KickRSS-Go/releases/download/kickRSS/fix-chat_template.tar.gz" rel="nofollow ugc">https://github.com/bemoons/KickRSS-Go/releases/download/kickRSS/fix-chat_template.tar.gz</a></p>
]]></description><link>https://lcz.me/post/8029</link><guid isPermaLink="true">https://lcz.me/post/8029</guid><dc:creator><![CDATA[bwghh]]></dc:creator><pubDate>Tue, 23 Jun 2026 14:35:27 GMT</pubDate></item><item><title><![CDATA[Reply to 还以为会很折腾，没想到一下就好了弄好了：7900xtx on Tue, 23 Jun 2026 13:13:56 GMT]]></title><description><![CDATA[<p dir="auto">fix-chat_template.jinja \ 这个模板主要起什么作用？<br />
你可以分享这个模板吗？我试一试你的这个。</p>
]]></description><link>https://lcz.me/post/8023</link><guid isPermaLink="true">https://lcz.me/post/8023</guid><dc:creator><![CDATA[nami ryuu]]></dc:creator><pubDate>Tue, 23 Jun 2026 13:13:56 GMT</pubDate></item></channel></rss>