跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. Qwen3.6 27b FP8 260K CTX - 准备放弃了

Qwen3.6 27b FP8 260K CTX - 准备放弃了

已定时 已固定 已锁定 已移动 LLM讨论区
5 帖子 5 发布者 122 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • T 离线
    T 离线
    Tony Yun
    编写于 最后由 编辑
    #1

    这正常thinking就老长了 叠加20tok/s 的吞吐慢如蜗牛。关了thinking直接降智,回答洗车店问题就整不对了。

    用的L40S GPU,号称有FP8 tensor core,可没有任何感觉,跟用Q8感觉没有区别。

    就这速度让agent干活我得等冒烟了。又没有特别好的工程方法让他们自己干活。 让它干一天估计不如deepV4Pro干一小时。

    1 条回复 最后回复
    0
    • A 离线
      A 离线
      applejuice
      编写于 最后由 applejuice 编辑
      #2

      洗车店问题 有什么好测的 大模型就只是语言模型
      没有本地需求 自然就是用云模型

      不管怎样部署 都是云端便宜 只要你没本地需求

      不管哪家
      如果要同等 云模型的效率 本地部署一定贵很多

      1 条回复 最后回复
      0
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        编写于 最后由 编辑
        #3

        @Tony Yun 理解你的感受,折腾了半天速度不如预期确实挺打击人的。不过L40S跑27B这个速度其实不太正常,有几个地方你可以看看:

        1. 260K上下文是主要原因 — 27B模型在260K ctx下,KV cache会吃掉大量显存带宽。如果你不需要那么大的上下文,建议先缩到32K-64K试试,速度会有明显提升。

        2. FP8 vs Q8感觉不出差别是正常的 — 27B这个量级,推理瓶颈在显存带宽(L40S约1120GB/s),不在计算单元。FP8 tensor core主要提升计算吞吐,但你被带宽卡住了,所以换精度不会有什么感觉。

        3. 如果你主要是跑Agent(需要频繁交互),建议两个方案:

          • 用Qwen3.6-35B-A3B(MoE架构,实际每token只激活12B),decode速度快很多,L40S上跑应该能到40-50 tok/s
          • 或者分两个模型:Agent干活用Qwen3-14B或Llama 4 Scout(速度快),需要深度分析时再切回27B
        4. 关于thinking太长 — 如果是Qwen3.6的thinking模式,可以在system prompt里限制thinking长度,或者对简单任务关掉thinking。

        对于"让agent干活等冒烟"的问题,真正适合跑Agent的模型是35B-A3B这类MoE或者14B以下的小模型。27B全参数+thinking是为深度推理设计的,交互式场景效率确实不高。

        1 条回复 最后回复
        0
        • 5 在线
          5 在线
          566656661
          编写于 最后由 566656661 编辑
          #4

          誒不對啊, L40S 不應該這麽差啊, 20 tks? 是沒開MTP嘛?

          如果是vLLM試試這個配置

          docker run -d \
            --name vllm-qwen27B \
            --gpus all \
            -p 8080:8000 \
            -e TORCH_CUDA_ARCH_LIST="8.9" \
            --ipc=host \
            vllm/vllm-openai:v0.22.0-cu129-ubuntu2404 \
            --model "Qwen/Qwen3.6-27B-FP8" \
            --max-model-len "131072" \
            --served-model-name "Qwen27B" \
            --gpu-memory-utilization "0.975" \
            --performance-mode "interactivity" \
            --trust-remote-code \
            --enable-auto-tool-choice \
            --tool-call-parser "qwen3_coder" \
            --reasoning-parser "qwen3" \
            --mm-encoder-tp-mode "data" \
            --mm-processor-cache-type "shm" \
            --speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
            --compilation-config '{"max_cudagraph_capture_size":16,"mode":"VLLM_COMPILE"}' \
            --async-scheduling \
            --attention-backend "flashinfer" \
            --kv-cache-dtype "fp8_e4m3" \
            --enable-prefix-caching
          

          這個基本上會有35以上tks

          如果是GGUF試試這個ini

          [unsloth/Qwen3.6-27B-MTP-GGUF:Q6_K_XL]
          ctx-size=262144
          temp=0.6
          top-p=0.95
          top-k=20
          min-p=0.00
          alias=local-vl-qwen27B
          spec-type=draft-mtp
          spec-draft-n-max=4
          

          這個基本上也會有35以上啊

          如果說是一開頭慢的話也沒辦法, 本身上下文一長, 首Token延遲(TTFT)就會很長

          1 条回复 最后回复
          0
          • JamesPhlaoJ 离线
            JamesPhlaoJ 离线
            JamesPhlao
            编写于 最后由 编辑
            #5

            难道是魔改的L40S吗?

            1 条回复 最后回复
            0
            • 5 566656661 被引用 于这个主题

            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

            有了你的建议,这篇帖子会更精彩哦 💗

            注册 登录
            回复
            • 在新帖中回复
            登录后回复
            • 从旧到新
            • 从新到旧
            • 最多赞同


            • 登录

            • 没有帐号? 注册

            • 登录或注册以进行搜索。
            • 第一个帖子
              最后一个帖子
            0
            • 版块
            • 最新
            • 标签
            • 热门
            • 用户
            • 群组