AMD 5700G 32G 7900XTX windows11 llama.cpp Windows x64 (Vulkan)跑Qwen3.6-35B-A3B-UD-Q4_K_S交作业

woaikuancheng0

32k上下文

128k上下文

测不动了，感觉128k还不是上限，反正就是越跑系统内存占用越来越大，吐字速度逐渐变慢！

woaikuancheng0

@echo off
chcp 65001 >nul
title llama.cpp - Qwen3.6-35B API Server

set "SCRIPT_DIR=%~dp0"
set "MODEL=%SCRIPT_DIR%models\Qwen3.6-35B-A3B-UD-Q4_K_S.gguf"

if not exist "%MODEL%" (
echo [Error] Model file not found
pause
exit /b 1
)

cls
echo ============================================
echo Qwen3.6-35B-A3B -- Select Context Length
echo 256 Experts MoE ^| Only 3B active/token
echo RX 7900 XTX (24GB) ^| 32GB RAM
echo --cpu-moe: experts on CPU, frees VRAM
echo ============================================
echo.
echo # Context VRAM Speed Note
echo -- ------- ------ ------ ---------------------------
echo 1) 32K ~10 GB full GPU, fastest
echo 2) 65K ~12 GB balanced
echo 3) 96K ~14 GB
echo 4) 128K ~16 GB
echo 5) 196K ~19 GB
echo 6) 262K ~22 GB max native context
echo.
set /p ctx="Select (1-6): "

if "%ctx%"=="1" set CTX=32768
if "%ctx%"=="2" set CTX=65536
if "%ctx%"=="3" set CTX=98304
if "%ctx%"=="4" set CTX=131072
if "%ctx%"=="5" set CTX=200704
if "%ctx%"=="6" set CTX=262144

if "%CTX%"=="" (
echo Invalid selection
pause
exit /b 1
)

echo.
echo Starting: %CTX% context
echo http://127.0.0.1:8080
echo.

"%SCRIPT_DIR%llama-server.exe" ^
-m "%MODEL%" ^
-c %CTX% ^
-fa on ^
-ctk q4_0 ^
-ctv q4_0 ^
-t 8 ^
-b 1024 ^
--no-mmap ^
--no-op-offload ^
--host 127.0.0.1 ^
--port 8080

echo.
pause

sospda

用5700G的核显开16G显存都能跑一些小模型。
哈哈

kop wang

我个人理解楼主这套有几个改进的方向。
1、Q4量化用Q4_K_M的性价比相对K_S更高一些。
2、再对模型吞吐性能要求不高的前提下，可以尝试以下qwen3.6-27B Q4_K_M。理论上讲，配合使用q8的kv量化，可以做到128K上下文。这样能力更好。
3、对于性能参考，楼主可以以llamabench来测试下速度，主要是要综合prefill和decode两个性能一起参考。

仅供参考。

woaikuancheng0

@sospda 核显还是差点儿事儿，刚开始学习，以后多提宝贵意见

woaikuancheng0

@kop-wang 嗯嗯，有时间我试试

sospda

r9700 用Qwen3.6-35B-A3B-UD-Q6_K 没问题，速度还是很快， 96K上下文，速度还是不错。
不搞严格推理，数学计算啥的，不需要全参数模型， A3B一般也够了。
不过多尝试一下模型也没问题

抡锤者

AMD 5700G 32G 7900XTX windows11 llama.cpp Windows x64 (Vulkan)跑Qwen3.6-35B-A3B-UD-Q4_K_S交作业

32k上下文

128k上下文