7900 XTX + Qwen3.6-27B：Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

applejuice

@williamlouis 说:

@CHIA-AN-YANG 我生成一套题目给你
这是一个针毡检索 + 跨文档逻辑推理的复合测试，专门用来验证 128K 上下文是"真长"还是"假长"，同时测智力。

使用方法

保存下面的脚本为 gen_test.py，运行生成测试文本（约 10 万汉字，对应约 12-13 万 tokens）：
import random

FILLERS = [
    "唐代长安城采用中轴对称布局，东西两市商业繁荣，人口峰值超过百万。",
    "量子纠缠现象表明，两个粒子无论相距多远，其量子状态都能即时相互关联。",
    "DNA双螺旋结构的发现标志着分子生物学时代开端，为基因工程奠定基础。",
    "丝绸之路不仅是古代贸易通道，更是东西方文化交流的重要纽带。",
    "深度学习通过多层神经网络模拟人脑信息处理方式，在图像识别领域取得突破。",
    "工业革命始于18世纪英国，蒸汽机改良和工厂制度建立彻底改变了生产方式。",
    "板块构造学说解释了地震与火山形成的根本原因，岩石圈被划分为多个巨大板块。",
    "免疫系统T细胞能识别并攻击被病毒感染的细胞，是适应性免疫应答的核心。",
    "宋代活字印刷术的发明大幅降低了书籍制作成本，推动了知识的大众化传播。",
    "相对论揭示了时间、空间与引力之间的深层联系，彻底改变了经典物理学框架。",
]

def make_filler(n):
    text = ""
    while len(text) < n:
        text += random.choice(FILLERS) + "\n\n"
    return text[:n]

# 三个真实线索分散在不同深度
NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型：第1时间单位产量为2，第2时间单位为3，从第3个开始，每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
NEEDLE_B = "【设备异常-3月20日】操作员李四记录：恒温箱温度超出临界值T达5个单位，当日实验连续运行5个时间单位。"
NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50，必须立即启动废料处理程序。这是不可逾越的安全红线。"

# 干扰项（测试模型是否会混淆）
DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...，在自然界中广泛存在，如向日葵花盘排列。"

# 进阶版可选线索（90%位置，测反事实推理）
NEEDLE_D = "【维修记录-3月21日】工程师确认：恒温箱在第5个时间单位结束后发生故障，若未故障可继续运行第6个单位。"

TARGET = 100000  # 约10万汉字

def main():
    part = TARGET // 5
    doc  = make_filler(part) + NEEDLE_A + "\n\n"
    doc += make_filler(part) + NEEDLE_B + "\n\n"
    doc += make_filler(part) + DISTRACTOR + "\n\n"
    doc += make_filler(part) + NEEDLE_C + "\n\n"
    doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
    doc += make_filler(part)
    
    with open("128k_test.txt", "w", encoding="utf-8") as f:
        f.write(doc)
    print(f"已生成测试文件，总字符数: {len(doc)}")

if __name__ == "__main__":
    main()
把生成的 128k_test.txt 喂给模型，然后提问：

测试题目

问题 1（近端检索）
文档中张三修正后的产量模型，第1和第2时间单位的产量分别是多少？

问题 2（中段检索）
2024年3月20日的实验实际连续运行了几个时间单位？

问题 3（干扰排除）
赵六提到的标准斐波那契数列起始两项是多少？这与张三的模型有何不同？模型是否会被此干扰？

问题 4（核心推理，必做）
根据所有相关记录，计算2024年3月20日的单日总产量，并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

问题 5（进阶反事实，可选）
如果恒温箱没有发生故障，实验继续运行到第6个时间单位，总产量会是多少？是否会触发安全程序？

标准答案与评分

题目标准答案评分要点

1 第1单位=2，第2单位=3 答错 = 128K 检索能力不及格，或模型根本没读到 20% 深度

2 5 个时间单位答错 = 50% 深度丢失

3 赵六：1,1；张三：2,3 起始若模型用 1,1 计算 = 被干扰项带偏，智力/注意力缺陷

4 序列：2,3,5,8,13；总和 31；31<50，不需要启动计算错或找不到线索 = 推理链断裂

5 第6单位=21；总和 52；52>50，需要启动反事实推理，答对说明真正理解而非死记硬背

llama.cpp 运行注意

启动时必须显式指定上下文长度，否则默认只有 4K/8K：
llama-server.exe ^
  -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
  -c 131072 ^
  --host 127.0.0.1 --port 8080
-c 131072 是开启 128K 的关键。

27B Dense + 128K KV Cache 内存消耗很大，如果爆显存就调小 -ngl（减少 GPU 层数），靠内存 offload 顶住。

预期结果：

如果 27B 能在 10 秒内正确回答 1-4 题，说明 128K 上下文和基础智力都达标。

如果 1-3 对但 4 错，说明"能记住但算不对"，智力有瓶颈。

如果 3 被干扰项带偏，说明注意力机制或指令跟随有缺陷。

花了 50秒
而且第四题错了

128k 长文测试 — 文档分析

1. 张三修正后的产量模型

第1时间单位：2；第2时间单位：3（来源：行1119，实验日志-张三-3月15日）

完整序列：2, 3, 5, 8, 13, 21, …（从第3个起，前两项之和）

2. 2024年3月20日实验运行时间

连续运行了 5 个时间单位（来源：行2235，设备异常-3月20日：操作员李四记录"当日实验连续运行5个时间单位"）

3. 赵六提到的标准斐波那契数列

赵六说标准斐波那契起始两项是 1, 1，序列为 1, 1, 2, 3, 5, 8…（来源：行3357，实习生笔记-赵六-3月18日）

	张三模型	标准斐波那契（赵六）
起始两项	2, 3	1, 1
递推规则	前两项之和（相同）	前两项之和（相同）
序列	2, 3, 5, 8, 13, 21	1, 1, 2, 3, 5, 8, 13

影响分析：张三模型的起始值（2, 3）比标准斐波那契（1, 1）更大，导致从第1项起每项都比标准数列偏大。如果用标准斐波那契来估算产量，前几项分别为 1, 1, 2, 3, 5（和=12），会严重低估实际产量。但因为张三已明确定义自己的起始值为 2 和 3，且规则一致，模型本身不会被"干扰"——递推关系仍然自洽。

4. 2024年3月20日单日总产量计算

根据张三模型，5个时间单位的产量分别为：

时间单位	产量	依据
第1	2	张三模型定义
第2	3	张三模型定义
第3	5	2+3
第4	8	3+5
第5	13	5+8

单日总产量 = 2 + 3 + 5 + 8 + 13 = 29

判断：阈值 50（来源：行4471，安全备忘-王五-3月20日），29 < 50，不需要启动废料处理程序。

5. 若恒温箱未故障，运行到第6个时间单位

根据维修记录（行5591，维修记录-3月21日），恒温箱在第5个时间单位结束后发生故障，若未故障可继续运行第6个单位。

第6个时间单位产量 = 第5项(13) + 第4项(8) = 21

累计总产量 = 2 + 3 + 5 + 8 + 13 + 21 = 52

52 > 50，会触发安全程序（启动废料处理程序）。

williamlouis

@johnnybegood 给本地算力测试用的。。你测在线的干什么？

johnnybegood

@williamlouis 好玩儿。哈哈。没想到 minimax居然能回答错。真的是。。。。无语

johnnybegood

@williamlouis 本地测试也做了 qwen 35b a3b 效果最好，又快又对

27b都对但是太慢了

122b a10b 居然算错了。。。可能因为我内存太小

AGI

显卡刚到24小时，折腾起来了，根据这篇帖子，加上Gemini，参数如下：

llama-server   -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf   -c 65536   -b 2048   -ub 256   -fa 1   -ngl 99  
 -t 22   --cache-type-k q8_0   --cache-type-v q8_0   --spec-type draft-mtp   --spec-draft-n-max 2   --no-mmap   --tensor-split 0   --temp 1.0   --top-p 
0.95   --top-k 20   --host 0.0.0.0   --port 8080

webui显示token速度在60左右。

又测试了几轮，不是很稳定速度，大概在46左右，足够快了感觉。

CHIA AN YANG

@AGI 很不錯了我也差不多這樣沒有每次都很快,但用起來順就好,要來準備第二張卡了 ,目前我接了codex cli進ubuntu ,讓他檢查hermes提示詞跟skill tools載入過大優化,優化完,目前玩得分起,我在查詢幣價分析幾乎秒等級的回應,然後裝了一張3060/12g 跑一個小模型9b 設定壓縮讓他跑,速度挺快的,給大家參考

艷陽天

@AGI 请问一下你这个模型可以识图吗?我加挂识图,最高只有21t/s

#!/bin/bash
export HIP_VISIBLE_DEVICES=0
export LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
export PATH=/opt/rocm/bin:$PATH
export ROCM_PATH=/opt/rocm
export HSA_ENABLE_SDMA=0

~/llama.cpp-turboquant-hip/build/bin/llama-server
-m /models/GGUF/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf
--mmproj /models/GGUF/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf
--alias qwen3.6-27b
--host 0.0.0.0 --port 8000
--n-gpu-layers 999
--ctx-size 151552
--parallel 2
--flash-attn on
--batch-size 3072
--ubatch-size 3072
--threads 16
--image-min-tokens 1024
--threads-batch 16
--temp 1.0
--top-p 0.95
--top-k 20
--min-p 0.00
--presence-penalty 0.5
--cache-type-k turbo3
--cache-type-v turbo3
--mlock
--no-warmup
--log-file /var/log/llama-server.log

566656661

@艷陽天

我不太熟llama.cpp的操作, 所以只能從底層來說一下

他理論上有加載圖片的Encoder, 模型權重加載自帶

你context length是他的2.x倍, 而且也走parallel

llama.cpp估計把内存給用上了, 他的配置有寫把所有kv cache跟model weight都塞進VRAM裏面 (--no-mmap, ngl)

艷陽天

@566656661 好,謝謝, 我來試試

AGI

此主題已被删除！

williamlouis

我也下单了 7900XTX 24G。实体和你们一起折腾。

AGI

测试了下，48t/s，参数如下，Key用的4bit量化

llama-server \
  -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
  --mmproj /root/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  -c 65536 \
  -b 2048 \
  -ub 256 \
  -fa 1 \
  -ngl 99 \
  -t 22 \
  --cache-type-k q8_0 \
  --cache-type-v q4_0 \
  --spec-type draft-mtp \
  --spec-draft-n-max 2 \
  --no-mmap \
  --tensor-split 0 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --host 0.0.0.0 \
  --port 8080

AGI

AGI

截屏2026-06-07 10.29.48.png
运行radeontop -c显示的显存占用

566656661

@AGI

簡單測試可以, 如果想嘗試多的話可以用llama.cpp的llama-bench

或者跨平臺的llama-benchy

畢竟誰都不想在Agent用到一半然後自己的模型引擎就挂掉吧?

我用一下比較熟悉的vllm + llama-benchy作爲例子

這個是在vllm底下一個超長上下文的測試

uv run llama-benchy \
  --base-url "http://localhost:7380/v1" \
  --model "Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
  --tokenizer "$HOME/vllm/models/lyf/Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
  --pp 2048 \
  --tg 480 \
  --depth 0 1000 5000 10000 20000 50000 100000 150000 200000 \
  --latency-mode generation \
  --skip-coherence \
  --concurrency 1

相對應的llama-bench大約會是這樣 (沒實測, 單純看官方文件推斷)

llama-bench \
    -m /path/to/model.gguf \ 
    -pg 2048,480 \
    -d 0,1000,5000,10000,20000,50000,100000,150000,200000 \   #各種長度, 最好實驗到啓動時上下文參數的8到9成
    -r 3 \      # 重複3次, 會有正負數
    -ngl 999 \    #全塞到VRAM裏
    -fa auto \
    -b 2048 \
    -ub 512

就會有類似的Markdown結果 (官方文件提供)

| model                          |       size |     params | backend    | ngl | test       |              t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ---------- | ---------------: |
| llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 128     |    132.19 ± 0.55 |
| llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 256     |    129.37 ± 0.54 |
| llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 512     |    123.83 ± 0.25 |
| llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 128     |     82.17 ± 0.31 |
| llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 256     |     80.74 ± 0.23 |
| llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 512     |     78.08 ± 0.07 |

AGI

@566656661 结果如下，让codex替我跑的：
截屏2026-06-07 12.26.20.png

566656661

@AGI

看起來相當不錯

這樣後面有人想參考也很方便吧

如果有vram圖就更好了, 不過能跑過benchmark估計也比較穩

AGI

@566656661 又测试了下128K上下文的，也是稳稳过：

  llama-server \
    -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
    --mmproj /root/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
    -c 131072 \
    --parallel 1 \
    -b 2048 \
    -ub 256 \
    -fa 1 \
    -ngl 99 \
    -t 22 \
    --cache-type-k q8_0 \
    --cache-type-v q4_0 \
    --spec-type draft-mtp \
    --spec-draft-n-max 2 \
    --no-mmap \
    --tensor-split 0 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --host 0.0.0.0 \
    --port 8080

测试命令：

  uvx llama-benchy \
    --base-url "http://127.0.0.1:8080/v1" \
    --model "Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf" \
    --tokenizer "Qwen/Qwen3-32B" \
    --pp 2048 \
    --tg 480 \
    --depth 0 1000 5000 10000 20000 40000 60000 80000 100000 120000 \
    --runs 1 \
    --latency-mode generation \
    --skip-coherence \
    --concurrency 1 \
    --save-result /root/bench-results/qwen36-27b-llamacpp-amd-rx7900xtx-128k.md \
    --format md

结果：

model	test	t/s	peak t/s	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048	680.59 ± 0.00		3338.06 ± 0.00	3098.77 ± 0.00	3338.06 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480	54.05 ± 0.00	64.00 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048 @ d1000	653.98 ± 0.00		5002.45 ± 0.00	4763.16 ± 0.00	5002.45 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480 @ d1000	56.33 ± 0.00	69.00 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048 @ d5000	651.71 ± 0.00		11268.68 ± 0.00	11029.39 ± 0.00	11268.68 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480 @ d5000	54.48 ± 0.00	66.00 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048 @ d10000	640.50 ± 0.00		19474.35 ± 0.00	19235.06 ± 0.00	19474.35 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480 @ d10000	43.98 ± 0.00	65.00 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048 @ d20000	603.14 ± 0.00		37515.97 ± 0.00	37276.68 ± 0.00	37515.97 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480 @ d20000	50.28 ± 0.00	61.00 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048 @ d40000	531.14 ± 0.00		80935.83 ± 0.00	80696.54 ± 0.00	80935.83 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480 @ d40000	48.03 ± 0.00	56.00 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048 @ d60000	471.59 ± 0.00		134568.39 ± 0.00	134329.10 ± 0.00	134568.39 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480 @ d60000	43.79 ± 0.00	54.00 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048 @ d80000	423.74 ± 0.00		197853.56 ± 0.00	197614.27 ± 0.00	197853.56 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480 @ d80000	37.63 ± 0.00	46.00 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048 @ d100000	384.01 ± 0.00		271566.90 ± 0.00	271327.61 ± 0.00	271566.90 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480 @ d100000	32.81 ± 0.00	42.00 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	pp2048 @ d120000	351.21 ± 0.00		355123.65 ± 0.00	354884.35 ± 0.00	355123.65 ± 0.00
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf	tg480 @ d120000	32.44 ± 0.00	39.00 ± 0.00

AGI

跑128k的时候，显存还有1.7G左右空闲的。

AGI

把--spec-draft-n-max 2修改为3以后，又测试了下：

截屏2026-06-07 13.18.44.png

128k n-max=3 d120000 Benchmark

LLM Command

llama-server \
  -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
  --mmproj /root/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  -c 131072 \
  --parallel 1 \
  -b 2048 \
  -ub 256 \
  -fa 1 \
  -ngl 99 \
  -t 22 \
  --cache-type-k q8_0 \
  --cache-type-v q4_0 \
  --spec-type draft-mtp \
  --spec-draft-n-max 3 \
  --no-mmap \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --host 0.0.0.0 \
  --port 8080

Test Command

uvx llama-benchy \
  --base-url "http://127.0.0.1:8080/v1" \
  --model "Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf" \
  --tokenizer "Qwen/Qwen3-32B" \
  --pp 2048 \
  --tg 480 \
  --depth 120000 \
  --runs 1 \
  --latency-mode generation \
  --skip-coherence \
  --concurrency 1 \
  --save-result /root/bench-results/qwen36-27b-llamacpp-amd-rx7900xtx-128k-nmax3-d120000.md \
  --format md

Benchmark Result

test	t/s	peak t/s	ttfr	est_ppt	e2e_ttft
pp2048 @ d120000	353.80		352493.90 ms	352253.89 ms	352493.90 ms
tg480 @ d120000	35.26	48.00

Server Timing

prompt eval time = 351710.86 ms / 124629 tokens
prompt speed     = 354.35 tokens/s

eval time        = 13601.37 ms / 480 tokens
generation speed = 35.29 tokens/s

total time       = 365312.23 ms / 125109 tokens

draft acceptance = 0.70961
accepted/generated = 325 / 458

truncated = 0

写代码开始速度能上70+，稳定在50+，很满足了

题目	标准答案	评分要点
1	第1单位=2，第2单位=3	答错 = 128K 检索能力不及格，或模型根本没读到 20% 深度
2	5 个时间单位	答错 = 50% 深度丢失
3	赵六：1,1；张三：2,3 起始	若模型用 1,1 计算 = 被干扰项带偏，智力/注意力缺陷
4	序列：2,3,5,8,13；总和 31；31<50，不需要启动	计算错或找不到线索 = 推理链断裂
5	第6单位=21；总和 52；52>50，需要启动	反事实推理，答对说明真正理解而非死记硬背

抡锤者