120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB

VS Studio

Clone llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
Fetch and switch to the Gemma 4 MTP PR branch
git fetch origin pull/23398/head:gemma4-mtp
git checkout gemma4-mtp
Build with CUDA support for NVIDIA GPUs
cmake -B build -DGGML_CUDA=ON -DBUILD_SHARED_LIBS=OFF
cmake --build build --config Release -j$(nproc)
Download Unsloth's Gemma 4 12B QAT here: https://huggingface.co/unsloth/gemma-4-12B-it-qat-GGUF
Download Google's Gemma 4 assistant / draft here https://huggingface.co/Janvitos/gemma-4-12B-it-qat-assistant-MTP-Q8_0-GGUF
Load the models with llama-server
llama-server
-m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf
--model-draft gemma-4-12B-it-qat-assistant-MTP-Q8_0.gguf
--spec-type draft-mtp
--spec-draft-n-max 4
--ctx-size 131072
--temp 1.0
--top-p 0.95
--top-k 64

terry

以后不要发纯英文帖子，如果是AI生成的，会封号。

johnnybegood

试了一下，需要重新编译llama.cpp， 3090 下面能到120t/s，速度不错，跑128k上下文实际任务也能在80-90t/s ，智商也算是在线，关键是多模态原生支持图像和音频，试了一下也比较准确。不错。

566656661

@johnnybegood

其實也不算完全原生態就是了, 這模型單純沒有音頻Encoder, 圖像也沒完全弄走Encoder的樣子, 還留了一個小的Embedder.

暧昧光影

Gemma4 12B 能力测试报告

环境： RTX 3060 (12GB) | 128K ctx | Q4_0 KV Cache | MTP n_max=2 | ~10.3GB VRAM

| #   | 测试项     | 结果 | 速度       | 关键表现                    |
|-----|------------|------|------------|-----------------------------|
| 1   | 逻辑推理   | ✅   | 50.9 tok/s | 正确识别三段论有效性        |
| 2   | 数学应用题 | ✅   | 53.8 tok/s | 分步计算，得出正确结论      |
| 3   | 多轮对话   | ✅   | 49.6 tok/s | 准确记住 Alice 的名字和爱好 |
| 4   | 长程检索   | ✅   | 29.9 tok/s | 在大量重复文本中找到答案    |
| 5   | 代码生成   | ✅   | 52.1 tok/s | 生成 Python 回文算法        |
| 6   | 文本摘要   | ✅   | 38.3 tok/s | 一句话准确概括              |
| 7   | 创意写作   | ✅   | 35.9 tok/s | 写出有氛围感的微型故事      |



📊 性能亮点

- 128K 上下文完全可用 — 长文检索准确命中
- 生成速度 ~35-53 tok/s — 比纯 CPU 快很多
- 显存占用 ~10.3GB — 12GB 卡有安全余量
- MTP 接受率正常 —  speculative decoding 工作稳定

结论： Gemma4 12B 在 3060 + 128K ctx 配置下，综合能力均衡，推理、代码、长文检索均表现良好，日常使用完全没问题。

速度差异好大

joker_chang

@johnnybegood 对图片中的手写文字识别真不怎么样，相比Qwen3-VL-8B差太远了~

johnnybegood

@joker_chang 你写的是中文吧，不要指望它用中文干活呢

stxpnet

@暧昧光影这个测试脚本是如何生成的呢?

暧昧光影

@stxpnet 直接让hermes帮我做的测试

joker_chang

@johnnybegood 我是工作要用，肯定要选对简体中文支持强大的模型

抡锤者

120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB