120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB
-
-
Clone llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp -
Fetch and switch to the Gemma 4 MTP PR branch
git fetch origin pull/23398/head:gemma4-mtp
git checkout gemma4-mtp -
Build with CUDA support for NVIDIA GPUs
cmake -B build -DGGML_CUDA=ON -DBUILD_SHARED_LIBS=OFF
cmake --build build --config Release -j$(nproc) -
Download Unsloth's Gemma 4 12B QAT here: https://huggingface.co/unsloth/gemma-4-12B-it-qat-GGUF
-
Download Google's Gemma 4 assistant / draft here https://huggingface.co/Janvitos/gemma-4-12B-it-qat-assistant-MTP-Q8_0-GGUF
-
Load the models with llama-server
llama-server
-m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf
--model-draft gemma-4-12B-it-qat-assistant-MTP-Q8_0.gguf
--spec-type draft-mtp
--spec-draft-n-max 4
--ctx-size 131072
--temp 1.0
--top-p 0.95
--top-k 64
-
-
试了一下, 需要重新编译llama.cpp, 3090 下面能到120t/s, 速度不错, 跑128k上下文实际任务也能在80-90t/s , 智商也算是在线,关键是多模态原生支持图像和音频, 试了一下也比较准确。不错。
-
试了一下, 需要重新编译llama.cpp, 3090 下面能到120t/s, 速度不错, 跑128k上下文实际任务也能在80-90t/s , 智商也算是在线,关键是多模态原生支持图像和音频, 试了一下也比较准确。不错。
其實也不算完全原生態就是了, 這模型單純沒有音頻Encoder, 圖像也沒完全弄走Encoder的樣子, 還留了一個小的Embedder.
-
Gemma4 12B 能力测试报告环境: RTX 3060 (12GB) | 128K ctx | Q4_0 KV Cache | MTP n_max=2 | ~10.3GB VRAM | # | 测试项 | 结果 | 速度 | 关键表现 | |-----|------------|------|------------|-----------------------------| | 1 | 逻辑推理 | ✅ | 50.9 tok/s | 正确识别三段论有效性 | | 2 | 数学应用题 | ✅ | 53.8 tok/s | 分步计算,得出正确结论 | | 3 | 多轮对话 | ✅ | 49.6 tok/s | 准确记住 Alice 的名字和爱好 | | 4 | 长程检索 | ✅ | 29.9 tok/s | 在大量重复文本中找到答案 | | 5 | 代码生成 | ✅ | 52.1 tok/s | 生成 Python 回文算法 | | 6 | 文本摘要 | ✅ | 38.3 tok/s | 一句话准确概括 | | 7 | 创意写作 | ✅ | 35.9 tok/s | 写出有氛围感的微型故事 | 📊 性能亮点 - 128K 上下文完全可用 — 长文检索准确命中 - 生成速度 ~35-53 tok/s — 比纯 CPU 快很多 - 显存占用 ~10.3GB — 12GB 卡有安全余量 - MTP 接受率正常 — speculative decoding 工作稳定 结论: Gemma4 12B 在 3060 + 128K ctx 配置下,综合能力均衡,推理、代码、长文检索均表现良好,日常使用完全没问题。速度差异好大
-
试了一下, 需要重新编译llama.cpp, 3090 下面能到120t/s, 速度不错, 跑128k上下文实际任务也能在80-90t/s , 智商也算是在线,关键是多模态原生支持图像和音频, 试了一下也比较准确。不错。
@johnnybegood 对图片中的手写文字识别真不怎么样,相比Qwen3-VL-8B差太远了~
-
@johnnybegood 对图片中的手写文字识别真不怎么样,相比Qwen3-VL-8B差太远了~
@joker_chang 你写的是中文吧, 不要指望它用中文干活呢
-
Gemma4 12B 能力测试报告环境: RTX 3060 (12GB) | 128K ctx | Q4_0 KV Cache | MTP n_max=2 | ~10.3GB VRAM | # | 测试项 | 结果 | 速度 | 关键表现 | |-----|------------|------|------------|-----------------------------| | 1 | 逻辑推理 | ✅ | 50.9 tok/s | 正确识别三段论有效性 | | 2 | 数学应用题 | ✅ | 53.8 tok/s | 分步计算,得出正确结论 | | 3 | 多轮对话 | ✅ | 49.6 tok/s | 准确记住 Alice 的名字和爱好 | | 4 | 长程检索 | ✅ | 29.9 tok/s | 在大量重复文本中找到答案 | | 5 | 代码生成 | ✅ | 52.1 tok/s | 生成 Python 回文算法 | | 6 | 文本摘要 | ✅ | 38.3 tok/s | 一句话准确概括 | | 7 | 创意写作 | ✅ | 35.9 tok/s | 写出有氛围感的微型故事 | 📊 性能亮点 - 128K 上下文完全可用 — 长文检索准确命中 - 生成速度 ~35-53 tok/s — 比纯 CPU 快很多 - 显存占用 ~10.3GB — 12GB 卡有安全余量 - MTP 接受率正常 — speculative decoding 工作稳定 结论: Gemma4 12B 在 3060 + 128K ctx 配置下,综合能力均衡,推理、代码、长文检索均表现良好,日常使用完全没问题。速度差异好大
-
@joker_chang 你写的是中文吧, 不要指望它用中文干活呢
@johnnybegood 我是工作要用,肯定要选对简体中文支持强大的模型