跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

R-simi KangtaoR

R-simi Kangtao

@R-simi Kangtao
关于
帖子
3
主题
0
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果
    R-simi KangtaoR R-simi Kangtao

    果然翻倍提升,我还加 上下文,感激@ezios ,加个MTP提速不少

    Hermes Agent + WebUI 性能测试报告
    环境配置
    项目 值
    模型 Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf (MoE, Q3_K_XL, ~16.8 GB)
    GPU NVIDIA RTX 5090 Laptop (24GB GDDR7), 19.1 GB / 69% / 68°C
    CPU Intel Core Ultra 9 275HX (24 threads)
    Server llama.cpp built-in server (port 8081)
    关键参数 -ngl 99 -t 24 -tb 512 -b 2048 -ub 1024 -fa on -c 131072
    MTP draft-mtp (n_max=4, n_min=2, p_split=0.15)
    非流式请求性能 (Server-side Timings)
    测试 Prompt TPS Gen TPS Prompt ms Gen ms
    Short (5 tok) 264.45 68.11 71.8 132.1
    Medium (68 tok) 581.34 121.99 117.0 983.7
    Long (122 tok) 822.52 111.12 148.3 1799.8
    观察: Prompt TPS 随输入长度增长(581→822),Gen TPS 稳定在 111-122 tok/s。

    流式请求性能 (TTFT + Streaming TPS)
    测试 TTFT (ms) Gen Tokens Stream TPS Wall (s)
    Short (1-2 sent.) 2546.4 21 116.11 2.727
    Medium (5 bullets) 161.9 174 127.63 1.525
    Long (~150 wrd) 173.0 202 115.26 1.926
    Extended (~200 wrd) 144.7 295 96.59 3.199
    观察: TTFT 在 145-2546 ms 范围波动(短回复因首 token 初始化开销更大),稳定流式 TPS 约 97-128 tok/s。

    关键指标汇总
    指标 值
    非流式 Gen TPS (avg) 116.56 tok/s
    流式 TPS (avg) 113.90 tok/s
    TTFT (avg) 756.5 ms
    TTFT 范围 144.7 - 2546.4 ms
    Token 间隔 ~8-10 ms/token
    与历史基线对比 (MTP 收益)
    指标 历史 (非MTP) 当前 (MTP) 变化
    Prompt TPS (cold) 73.13 264-822 +55% to +1030%
    Gen TPS (cold) 65.93 68-122 +3% to +85%
    Gen TPS (stream avg) 66.62 114-128 +71% to +92%
    TTFB 11.44s 0.14-2.5s -80% to -99%
    结论: MTP (Multi-Token Prediction) 带来了显著的性能提升,尤其是首 token 延迟降低超过一个数量级,流式生成速度提升约 70-92%。WebUI 用户体验显著改善 — 更快看到首 token,后续 token 流更流畅。

    WebUI 集成说明
    流式模式: 用户看到首 token 的时间 = TTFT,之后以 Stream TPS 速率逐 token 显示
    非流式模式: 用户等待完整响应(prompt + generation 总和)
    WebUI 总时间 ≈ TTFT + generation time + network overhead

    AI硬件 llama.cpp rtx4060 usb4拓展坞 nvidia

  • 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果
    R-simi KangtaoR R-simi Kangtao

    @ezios, 下载中。。。 让我试试, Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf - 14.3GB, 应该能快点,我可以加上下文了。 哈哈, 我测看看

    AI硬件 llama.cpp rtx4060 usb4拓展坞 nvidia

  • 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果
    R-simi KangtaoR R-simi Kangtao

    RTX4060, 8GB 可以跑 35B-A3B , 很牛逼!~ 分享我的设置,希望有大神指点如果还能优化。

    📊 Hermes Agent 基准测试结果
    测试日期: 2026-05-20
    模型: Qwen3.6-35B-A3B-UD-Q3_K_XL.gguf
    llama.cpp 参数: -t 32 -tb 512 -b 4096 -ub 2048 -c 131072 -ngl 99 -fa on

    性能摘要
    组件/测试 指标 结果
    llama.cpp Short TPS 20 tokens 9.04 tok/s
    llama.cpp Medium TPS 120 tokens 64.05 tok/s
    llama.cpp Long TPS 250 tokens 65.71 tok/s
    llama.cpp Server TPS (流式) 服务端 71.05 tok/s
    llama.cpp TTFT 首 token 延迟 106.8 ms
    llama.cpp 生成时间 (流式) 流式 1689.0 ms
    WebUI 端到端延迟 完整响应 2707.6 ms
    平均 llama.cpp TPS 综合 52.46 tok/s
    关键发现
    llama.cpp 服务端 TPS 71.05 tok/s — 符合预期性能水平
    TTFT 极低 (106.8ms) — KV cache 预填充效率高
    笔记本: Aftershock MX-16 Pro, RTX5090,24GB,

    想把模型换MTP的 --》 https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF (Q3_K_XL)
    升级llama.cpp to support MTP, 这样能够提升吗?

    AI硬件 llama.cpp rtx4060 usb4拓展坞 nvidia
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组