抡锤者

simo9052

我基本上是按照这个视频中的方法操作的：
https://www.youtube.com/watch?v=8F_5pdcD3HY
我没有 1:1 完全复制，而是以此为主要参考并根据我自己的机器进行了调整。

我目前的配置：

GPU: RTX 3080 20GB

RAM: 15 GB

CPU: i3-10100F

llama.cpp: turboquant 编译版本
https://github.com/TheTom/llama-cpp-turboquant

模型 (Model): Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

多模态组件 (mmproj): mmproj-F16.gguf

上下文 (Context): 256k

n-cpu-moe: 15

cache-type-k: turbo4

cache-type-v: turbo3

flash-attn: 开启

目前的结果：

在 256k 上下文下运行稳定

速度大约为 45 tok/s

模型加载时间约为 5 分钟

运行添加 mmproj 后，视觉功能也能正常工作

运行脚本：
#!/usr/bin/env bash
set -euo pipefail

MODEL="/mnt/hdd_storage/models/llama.cpp/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf"
SERVER="/mnt/hdd_storage/llama.cpp-turboquant/repo/build/bin/llama-server"
HOST="0.0.0.0"
PORT="9999"
CTX="262144"
THREADS="6"
THREADS_BATCH="6"
BATCH="256"
UBATCH="128"
GPU_LAYERS="99"
CPU_MOE="20"
PARALLEL="2"
CACHE_K="turbo4"
CACHE_V="turbo3"
MMPROJ="/mnt/hdd_storage/models/llama.cpp/mmproj-F16.gguf"
REASONING_MODE="${REASONING_MODE:-off}"

exec "$SERVER"
--model "$MODEL"
--host "$HOST"
--port "$PORT"
-ngl "$GPU_LAYERS"
--n-cpu-moe "$CPU_MOE"
-c "$CTX"
-t "$THREADS"
-tb "$THREADS_BATCH"
-b "$BATCH"
-ub "$UBATCH"
-np "$PARALLEL"
--cache-type-k "$CACHE_K"
--cache-type-v "$CACHE_V"
--mmproj "$MMPROJ"
--flash-attn on
--no-warmup
--jinja
--reasoning "$REASONING_MODE"

我尝试了运行不同27B模型量化参数但是都不能稳定跑长上下文任务，经常OOM，想说各位老大有没有什么办法。

抡锤者

simo9052

帖子