跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

饲

饲养员

@饲养员
关于
帖子
2
主题
0
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    饲 饲养员

    牛逼!学习学习!

    LLM讨论区

  • 我尝试了mtp和tuboquant
    饲 饲养员

    @高乐天
    感谢这位仁兄,我也一样是 ai max 395 目前用Ollama 跑 qwen3.6-27b 只有 12T/s
    但是用了你介绍的方法,速度几乎翻倍了。以下贴上具体数据给大家参考一下。
    再次感谢 @高乐天 !

    <当前运行环境 & 模型>

    项目 详情
    模型 qwen3.6-27b-mtp(Qwen 3.6 27B + MTP 推测解码)
    运行硬件 Ryzen AI Max+ 395 + Radeon 8060S 集显
    MTP draft 设定 3

    <最新测速结果>

    阶段 Token 数 耗时 速度
    Prompt 处理 45 tokens 421ms ~107 token/s
    Token 生成(MTP) 500 tokens 24.8s ~20.2 token/s
    总计 545 tokens ~25.2s ~21.6 token/s

    <MTP 推测解码效率>

    指标 数值 说明
    Draft tokens(草稿) 585 推测解码产生的草稿 token 总数
    Accepted(接受) 304 通过验证直接跳过的 token
    接受率 ~52% 约一半的草稿被直接接受,省掉了验证开销
    预测加速比 500 / 304 ≈ 1.64x 相比无 MTP 的纯串行生成,理论加速约 1.6 倍
    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组