分享自己的經驗 # 7900 XTX 本地 LLM 優化實測報告(Qwen3.6-27B)
-
@bin-flamebox 5500很便宜,Q8可以开128k,研究下Turboquant,看下LLM区的几个置顶帖子,弄好了可以开256k。
-
T terry 于 将此主题固定
-
@CHIA-AN-YANG 128K上下文确实会让7900 XTX的LLM推理速度明显下降,这是正常的。有两个方向可以优化:
-
精简上下文长度:如果不是必须128K,可以试试在llama.cpp里用
--ctx-size 32768限制到32K。对于大部分Agent任务(Hermes、代码补全),32K完全够用,Prefill速度能快3-4倍。只有在处理超长文档或完整代码库时才需要128K。 -
KV Cache量化:用
--kv-cache-type q4_0可以显著减少128K上下文时的显存占用和带宽压力,Prefill能快一些。7900 XTX的显存带宽虽然高,但128K的KV Cache体积很大,量化后缓存更紧凑。 -
MTP(Multi-Token Prediction):如果还没开,试试llama.cpp的MTP模式(需要支持MTP的模型,Qwen 3.6 27B支持),Token生成速度能提升20-30%。
总结:日常用32K上下文 + Q4 KV Cache,需要处理长文档时再切换到128K。这样既保证了日常速度,又保留了大上下文能力。
-
-
感謝大大無私分享

-
张 张鑫磊 于 引用了 此主题
-
謝謝樓主分享,我也成功在W7900上面跑Qwen3.6 27b Q4 MTP模型了,也掛了圖形識別模型成功。我用實際路徑的設定成功。輸出速度部分從原本的20t/s有增加到50t/s左右,從速度勉強可接受變成速度感覺順暢。更重要的是我也同時學會用llama.cpp在windows11架server了! 這軟體穩定度比lmstudio更好,模型載入速度超順暢。
@echo off
"D:\llama.cpp\build\bin\llama-server.exe" ^
-m "D:\llama.cpp\Qwen3.6-27B-MTP-Q4_K_M.gguf" ^
--mmproj "D:\llama.cpp\mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
--device Vulkan0 -ngl 999 -c 262144 ^
--temp 0.4 ^
--no-mmap ^
--api-key "*******" ^
-ctk q4_0 -ctv q4_0 -np 1 ^
--spec-type draft-mtp --spec-draft-n-max 3 ^
--reasoning off -fa 1 ^
--port 8081 --host 0.0.0.0
pause -
謝謝樓主分享,我也成功在W7900上面跑Qwen3.6 27b Q4 MTP模型了,也掛了圖形識別模型成功。我用實際路徑的設定成功。輸出速度部分從原本的20t/s有增加到50t/s左右,從速度勉強可接受變成速度感覺順暢。更重要的是我也同時學會用llama.cpp在windows11架server了! 這軟體穩定度比lmstudio更好,模型載入速度超順暢。
@echo off
"D:\llama.cpp\build\bin\llama-server.exe" ^
-m "D:\llama.cpp\Qwen3.6-27B-MTP-Q4_K_M.gguf" ^
--mmproj "D:\llama.cpp\mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
--device Vulkan0 -ngl 999 -c 262144 ^
--temp 0.4 ^
--no-mmap ^
--api-key "*******" ^
-ctk q4_0 -ctv q4_0 -np 1 ^
--spec-type draft-mtp --spec-draft-n-max 3 ^
--reasoning off -fa 1 ^
--port 8081 --host 0.0.0.0
pause -
@bin-flamebox 发测试结果来参考下。
@terry

拿到手了。一开始用的是linux,一通环境全部装好了,什么rocm、vulkan乱七八糟的。本来挺顺的,但后来跑comfyui后却莫名卡死了,然后就不认驱动了
。怎么反复重装都没用,就算恢复到最开始的系统快照也是这样,莫名其妙!想一想,还是装回windows好了。。。
使用llama.cpp的vulkan后端,配合最新整合mtp的主线编译+mtp专用的量化模型。跑出的成绩还行吧。预填充500-600tk/s,输出有36-65tk/s。上下文我只拉到128k,显存占用不到21个G。
接入到claud code后,实际用起来比预期还好一点。果然预填充速度才是最重要的,如果当初买r9700,可能要差一截 -
@terry

拿到手了。一开始用的是linux,一通环境全部装好了,什么rocm、vulkan乱七八糟的。本来挺顺的,但后来跑comfyui后却莫名卡死了,然后就不认驱动了
。怎么反复重装都没用,就算恢复到最开始的系统快照也是这样,莫名其妙!想一想,还是装回windows好了。。。
使用llama.cpp的vulkan后端,配合最新整合mtp的主线编译+mtp专用的量化模型。跑出的成绩还行吧。预填充500-600tk/s,输出有36-65tk/s。上下文我只拉到128k,显存占用不到21个G。
接入到claud code后,实际用起来比预期还好一点。果然预填充速度才是最重要的,如果当初买r9700,可能要差一截 -
@bin-flamebox 你Linux有什么问题?脚本去下载AMD官方的一键安装脚本,问Gemini,和它说清楚,肯定没问题的。
@terry 一开始没有问题,啥都装好了,跑llm一切正常。就是跑了个comfyui后不认驱动了。。。
之前测试过,如果跑llm的话,现在vulkan比rocm好太多了。
现在还是觉得装回windows方便不少,性能基本差不了多少,关键我不是24小时开机使用,偶尔直接玩玩游戏,win更合适
现在comfyui有windows桌面版一键直装了,直接内置装好rocm需要的python虚拟环境,比自己github clone方便很多了 -
系统 于 取消固定此主题
-
謝謝樓主分享,我也成功在W7900上面跑Qwen3.6 27b Q4 MTP模型了,也掛了圖形識別模型成功。我用實際路徑的設定成功。輸出速度部分從原本的20t/s有增加到50t/s左右,從速度勉強可接受變成速度感覺順暢。更重要的是我也同時學會用llama.cpp在windows11架server了! 這軟體穩定度比lmstudio更好,模型載入速度超順暢。
@echo off
"D:\llama.cpp\build\bin\llama-server.exe" ^
-m "D:\llama.cpp\Qwen3.6-27B-MTP-Q4_K_M.gguf" ^
--mmproj "D:\llama.cpp\mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
--device Vulkan0 -ngl 999 -c 262144 ^
--temp 0.4 ^
--no-mmap ^
--api-key "*******" ^
-ctk q4_0 -ctv q4_0 -np 1 ^
--spec-type draft-mtp --spec-draft-n-max 3 ^
--reasoning off -fa 1 ^
--port 8081 --host 0.0.0.0
pause勉強可接受變成速度感覺順暢。更重要的是我也同時學會用llama.cpp在windows11架server了! 這軟體穩定度比lmstudio更好,模型載入速度超順暢。
@echo off
"D:\llama.cpp\build\bin\llama-server.exe" ^
-m "D:\llama.cpp\Qwen3.6-27B-MTP-Q4_K_M.gguf" ^
--mmproj "D:\llama.cpp\mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf" ^
--device Vulkan0 -ngl 999 -c 262144 ^
--temp 0.4 ^
--no-mmap ^
--api-key "*******" ^
-ctk q4_0 -ctv q4_0 -np 1 ^恭喜啦!~這張卡很划算的
7900xtx 32G X99 大概40-50t/s