120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB

Reply to 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB on Mon, 08 Jun 2026 23:36:03 GMT

joker_chang — Mon, 08 Jun 2026 23:36:03 GMT

@johnnybegood 我是工作要用，肯定要选对简体中文支持强大的模型

Reply to 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB on Mon, 08 Jun 2026 13:55:02 GMT

暧昧光影 — Mon, 08 Jun 2026 13:55:02 GMT

@stxpnet 直接让hermes帮我做的测试

Reply to 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB on Mon, 08 Jun 2026 12:42:51 GMT

stxpnet — Mon, 08 Jun 2026 12:42:51 GMT

@暧昧光影这个测试脚本是如何生成的呢?

Reply to 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB on Mon, 08 Jun 2026 12:06:17 GMT

johnnybegood — Mon, 08 Jun 2026 12:06:17 GMT

@joker_chang 你写的是中文吧，不要指望它用中文干活呢

Reply to 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB on Mon, 08 Jun 2026 06:57:44 GMT

joker_chang — Mon, 08 Jun 2026 06:57:44 GMT

@johnnybegood 对图片中的手写文字识别真不怎么样，相比Qwen3-VL-8B差太远了~

Reply to 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB on Sun, 07 Jun 2026 17:57:33 GMT

暧昧光影 — Sun, 07 Jun 2026 17:57:33 GMT

Gemma4 12B 能力测试报告

环境： RTX 3060 (12GB) | 128K ctx | Q4_0 KV Cache | MTP n_max=2 | ~10.3GB VRAM

| #   | 测试项     | 结果 | 速度       | 关键表现                    |
|-----|------------|------|------------|-----------------------------|
| 1   | 逻辑推理   | ✅   | 50.9 tok/s | 正确识别三段论有效性        |
| 2   | 数学应用题 | ✅   | 53.8 tok/s | 分步计算，得出正确结论      |
| 3   | 多轮对话   | ✅   | 49.6 tok/s | 准确记住 Alice 的名字和爱好 |
| 4   | 长程检索   | ✅   | 29.9 tok/s | 在大量重复文本中找到答案    |
| 5   | 代码生成   | ✅   | 52.1 tok/s | 生成 Python 回文算法        |
| 6   | 文本摘要   | ✅   | 38.3 tok/s | 一句话准确概括              |
| 7   | 创意写作   | ✅   | 35.9 tok/s | 写出有氛围感的微型故事      |



📊 性能亮点

- 128K 上下文完全可用 — 长文检索准确命中
- 生成速度 ~35-53 tok/s — 比纯 CPU 快很多
- 显存占用 ~10.3GB — 12GB 卡有安全余量
- MTP 接受率正常 —  speculative decoding 工作稳定

结论： Gemma4 12B 在 3060 + 128K ctx 配置下，综合能力均衡，推理、代码、长文检索均表现良好，日常使用完全没问题。

速度差异好大

Reply to 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB on Sun, 07 Jun 2026 15:01:09 GMT

566656661 — Sun, 07 Jun 2026 15:01:09 GMT

@johnnybegood

其實也不算完全原生態就是了, 這模型單純沒有音頻Encoder, 圖像也沒完全弄走Encoder的樣子, 還留了一個小的Embedder.

Reply to 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB on Sun, 07 Jun 2026 14:50:36 GMT

johnnybegood — Sun, 07 Jun 2026 14:50:36 GMT

试了一下，需要重新编译llama.cpp， 3090 下面能到120t/s，速度不错，跑128k上下文实际任务也能在80-90t/s ，智商也算是在线，关键是多模态原生支持图像和音频，试了一下也比较准确。不错。

Reply to 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB on Sun, 07 Jun 2026 14:48:04 GMT

terry — Sun, 07 Jun 2026 14:48:04 GMT

以后不要发纯英文帖子，如果是AI生成的，会封号。