跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB

120 tok/s Gemma 4 12B + MTP RTX-4070S 12GB

已定时 已固定 已锁定 已移动 LLM讨论区
10 帖子 7 发布者 162 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • VS StudioV 离线
    VS StudioV 离线
    VS Studio
    编写于 最后由 编辑
    #1
    1. Clone llama.cpp
      git clone https://github.com/ggml-org/llama.cpp.git
      cd llama.cpp

    2. Fetch and switch to the Gemma 4 MTP PR branch
      git fetch origin pull/23398/head:gemma4-mtp
      git checkout gemma4-mtp

    3. Build with CUDA support for NVIDIA GPUs
      cmake -B build -DGGML_CUDA=ON -DBUILD_SHARED_LIBS=OFF
      cmake --build build --config Release -j$(nproc)

    4. Download Unsloth's Gemma 4 12B QAT here: https://huggingface.co/unsloth/gemma-4-12B-it-qat-GGUF

    5. Download Google's Gemma 4 assistant / draft here https://huggingface.co/Janvitos/gemma-4-12B-it-qat-assistant-MTP-Q8_0-GGUF

    6. Load the models with llama-server
      llama-server
      -m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf
      --model-draft gemma-4-12B-it-qat-assistant-MTP-Q8_0.gguf
      --spec-type draft-mtp
      --spec-draft-n-max 4
      --ctx-size 131072
      --temp 1.0
      --top-p 0.95
      --top-k 64

    1 条回复 最后回复
    0
    • terryT 离线
      terryT 离线
      terry
      超级版主
      编写于 最后由 编辑
      #2

      以后不要发纯英文帖子,如果是AI生成的,会封号。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • J 在线
        J 在线
        johnnybegood
        编写于 最后由 编辑
        #3

        试了一下, 需要重新编译llama.cpp, 3090 下面能到120t/s, 速度不错, 跑128k上下文实际任务也能在80-90t/s , 智商也算是在线,关键是多模态原生支持图像和音频, 试了一下也比较准确。不错。

        5 J 2 条回复 最后回复
        0
        • J johnnybegood

          试了一下, 需要重新编译llama.cpp, 3090 下面能到120t/s, 速度不错, 跑128k上下文实际任务也能在80-90t/s , 智商也算是在线,关键是多模态原生支持图像和音频, 试了一下也比较准确。不错。

          5 在线
          5 在线
          566656661
          编写于 最后由 编辑
          #4

          @johnnybegood

          其實也不算完全原生態就是了, 這模型單純沒有音頻Encoder, 圖像也沒完全弄走Encoder的樣子, 還留了一個小的Embedder.

          1 条回复 最后回复
          0
          • 暧 离线
            暧 离线
            暧昧光影
            编写于 最后由 编辑
            #5

            ✅ Gemma4 12B 能力测试报告

            环境: RTX 3060 (12GB) | 128K ctx | Q4_0 KV Cache | MTP n_max=2 | ~10.3GB VRAM
            
            | #   | 测试项     | 结果 | 速度       | 关键表现                    |
            |-----|------------|------|------------|-----------------------------|
            | 1   | 逻辑推理   | ✅   | 50.9 tok/s | 正确识别三段论有效性        |
            | 2   | 数学应用题 | ✅   | 53.8 tok/s | 分步计算,得出正确结论      |
            | 3   | 多轮对话   | ✅   | 49.6 tok/s | 准确记住 Alice 的名字和爱好 |
            | 4   | 长程检索   | ✅   | 29.9 tok/s | 在大量重复文本中找到答案    |
            | 5   | 代码生成   | ✅   | 52.1 tok/s | 生成 Python 回文算法        |
            | 6   | 文本摘要   | ✅   | 38.3 tok/s | 一句话准确概括              |
            | 7   | 创意写作   | ✅   | 35.9 tok/s | 写出有氛围感的微型故事      |
            
            
            
            📊 性能亮点
            
            - 128K 上下文完全可用 — 长文检索准确命中
            - 生成速度 ~35-53 tok/s — 比纯 CPU 快很多
            - 显存占用 ~10.3GB — 12GB 卡有安全余量
            - MTP 接受率正常 —  speculative decoding 工作稳定
            
            结论: Gemma4 12B 在 3060 + 128K ctx 配置下,综合能力均衡,推理、代码、长文检索均表现良好,日常使用完全没问题。
            

            速度差异好大

            S 1 条回复 最后回复
            0
            • J johnnybegood

              试了一下, 需要重新编译llama.cpp, 3090 下面能到120t/s, 速度不错, 跑128k上下文实际任务也能在80-90t/s , 智商也算是在线,关键是多模态原生支持图像和音频, 试了一下也比较准确。不错。

              J 离线
              J 离线
              joker_chang
              编写于 最后由 编辑
              #6

              @johnnybegood 对图片中的手写文字识别真不怎么样,相比Qwen3-VL-8B差太远了~

              J 1 条回复 最后回复
              0
              • J joker_chang

                @johnnybegood 对图片中的手写文字识别真不怎么样,相比Qwen3-VL-8B差太远了~

                J 在线
                J 在线
                johnnybegood
                编写于 最后由 编辑
                #7

                @joker_chang 你写的是中文吧, 不要指望它用中文干活呢

                J 1 条回复 最后回复
                1
                • 暧 暧昧光影

                  ✅ Gemma4 12B 能力测试报告

                  环境: RTX 3060 (12GB) | 128K ctx | Q4_0 KV Cache | MTP n_max=2 | ~10.3GB VRAM
                  
                  | #   | 测试项     | 结果 | 速度       | 关键表现                    |
                  |-----|------------|------|------------|-----------------------------|
                  | 1   | 逻辑推理   | ✅   | 50.9 tok/s | 正确识别三段论有效性        |
                  | 2   | 数学应用题 | ✅   | 53.8 tok/s | 分步计算,得出正确结论      |
                  | 3   | 多轮对话   | ✅   | 49.6 tok/s | 准确记住 Alice 的名字和爱好 |
                  | 4   | 长程检索   | ✅   | 29.9 tok/s | 在大量重复文本中找到答案    |
                  | 5   | 代码生成   | ✅   | 52.1 tok/s | 生成 Python 回文算法        |
                  | 6   | 文本摘要   | ✅   | 38.3 tok/s | 一句话准确概括              |
                  | 7   | 创意写作   | ✅   | 35.9 tok/s | 写出有氛围感的微型故事      |
                  
                  
                  
                  📊 性能亮点
                  
                  - 128K 上下文完全可用 — 长文检索准确命中
                  - 生成速度 ~35-53 tok/s — 比纯 CPU 快很多
                  - 显存占用 ~10.3GB — 12GB 卡有安全余量
                  - MTP 接受率正常 —  speculative decoding 工作稳定
                  
                  结论: Gemma4 12B 在 3060 + 128K ctx 配置下,综合能力均衡,推理、代码、长文检索均表现良好,日常使用完全没问题。
                  

                  速度差异好大

                  S 离线
                  S 离线
                  stxpnet
                  编写于 最后由 编辑
                  #8

                  @暧昧光影 这个测试脚本是如何生成的呢?

                  暧 1 条回复 最后回复
                  0
                  • S stxpnet

                    @暧昧光影 这个测试脚本是如何生成的呢?

                    暧 离线
                    暧 离线
                    暧昧光影
                    编写于 最后由 编辑
                    #9

                    @stxpnet 直接让hermes帮我做的测试

                    1 条回复 最后回复
                    0
                    • J johnnybegood

                      @joker_chang 你写的是中文吧, 不要指望它用中文干活呢

                      J 离线
                      J 离线
                      joker_chang
                      编写于 最后由 编辑
                      #10

                      @johnnybegood 我是工作要用,肯定要选对简体中文支持强大的模型

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组