跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 【国产替代】智铠100 32Gx2部署Qwen3.6-35B-W4A8含多并发测试结果

【国产替代】智铠100 32Gx2部署Qwen3.6-35B-W4A8含多并发测试结果

已定时 已固定 已锁定 已移动 AI硬件
12 帖子 6 发布者 329 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • E 离线
    E 离线
    ezios
    编写于 最后由 ezios 编辑
    #1

    1. 说明

    180d054f-6091-4d0f-9a75-3ecb239b511f-image.jpeg
    双智铠100算力卡运行大模型的测试情况,当前已完整形成性能测试结果的模型为:

    • Qwen3.6-35B-A3B-W4A8

    并且opencode接入了该模型使用,非常快😂

    06c9b5b7-7255-48a1-b01d-75a88502d17f-image.jpeg

    2. 测试对象

    硬件对象:双智铠100算力卡。

    推理框架:vLLM。

    接口协议:OpenAI Chat Completions API。

    主要测试接口:

    http://127.0.0.1:10030/v1/chat/completions
    

    主要测试模型:

    Qwen3.6-35B-A3B-W4A8
    

    模型路径:

    /data/model/Qwen3___6-35B-A3B-W4A8
    

    3. Qwen3.6-35B-A3B-W4A8 启动命令

    3.1 日常交互启动命令

    该配置适合低并发、普通上下文和长上下文测试。

    export VLLM_RPC_TIMEOUT=50000
    export VLLM_ENFORCE_CUDA_GRAPH=1
    export VLLM_W8A8_MOE_USE_W4A8=1
    export VLLM_KV_DISABLE_CROSS_GROUP_SHARE=1
    
    vllm serve /data/model/Qwen3___6-35B-A3B-W4A8 \
      --trust-remote-code \
      --tensor-parallel-size 2 \
      --max-num-seqs 4 \
      --enable-chunked-prefill \
      --max-model-len 65536 \
      --reasoning-parser qwen3 \
      --enable-auto-tool-choice \
      --tool-call-parser qwen3_coder \
      --host 0.0.0.0 \
      --port 10030 \
      --gpu-memory-utilization 0.90 \
      --served-model-name Qwen3.6-35B-A3B-W4A8 \
      --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY", "level": 0}' \
      --default-chat-template-kwargs '{"enable_thinking": false}'
    

    3.2 吞吐压测启动命令

    该配置用于 6、8、12 并发测试,主要观察吞吐上限和过载边界。

    export VLLM_RPC_TIMEOUT=50000
    export VLLM_ENFORCE_CUDA_GRAPH=1
    export VLLM_W8A8_MOE_USE_W4A8=1
    export VLLM_KV_DISABLE_CROSS_GROUP_SHARE=1
    
    vllm serve /data/model/Qwen3___6-35B-A3B-W4A8 \
      --trust-remote-code \
      --tensor-parallel-size 2 \
      --max-num-seqs 12 \
      --enable-chunked-prefill \
      --max-model-len 65536 \
      --reasoning-parser qwen3 \
      --enable-auto-tool-choice \
      --tool-call-parser qwen3_coder \
      --host 0.0.0.0 \
      --port 10030 \
      --gpu-memory-utilization 0.90 \
      --served-model-name Qwen3.6-35B-A3B-W4A8 \
      --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY", "level": 0}' \
      --default-chat-template-kwargs '{"enable_thinking": false}'
    

    4. 测试命令模板

    4.1 单并发普通上下文测试

    vllm bench serve \
      --backend openai-chat \
      --base-url http://127.0.0.1:10030 \
      --endpoint /v1/chat/completions \
      --model Qwen3.6-35B-A3B-W4A8 \
      --tokenizer /data/model/Qwen3___6-35B-A3B-W4A8 \
      --dataset-name random \
      --random-input-len 2048 \
      --random-output-len 512 \
      --num-prompts 20 \
      --request-rate inf \
      --max-concurrency 1 \
      --ignore-eos \
      --seed 123
    

    4.2 普通上下文多并发测试

    将 --max-concurrency 分别设置为 4、6、8、12。

    vllm bench serve \
      --backend openai-chat \
      --base-url http://127.0.0.1:10030 \
      --endpoint /v1/chat/completions \
      --model Qwen3.6-35B-A3B-W4A8 \
      --tokenizer /data/model/Qwen3___6-35B-A3B-W4A8 \
      --dataset-name random \
      --random-input-len 4096 \
      --random-output-len 512 \
      --num-prompts 50 \
      --request-rate inf \
      --max-concurrency 8 \
      --ignore-eos \
      --seed 123
    

    说明:4 并发测试时,实际提供的测试请求数为 10;6、8、12 并发测试请求数为 50。

    4.3 长上下文测试

    vllm bench serve \
      --backend openai-chat \
      --base-url http://127.0.0.1:10030 \
      --endpoint /v1/chat/completions \
      --model Qwen3.6-35B-A3B-W4A8 \
      --tokenizer /data/model/Qwen3___6-35B-A3B-W4A8 \
      --dataset-name random \
      --random-input-len 16384 \
      --random-output-len 512 \
      --num-prompts 20 \
      --request-rate inf \
      --max-concurrency 2 \
      --ignore-eos \
      --seed 123
    

    5. Qwen3.6-35B-A3B-W4A8 测试结果总表

    表格 1:基础信息与吞吐量

    测试场景 输入/输出 tokens 并发 请求数 成功数 失败数 总耗时 输出吞吐 (tok/s) 总吞吐 (tok/s)
    单并发普通上下文 2048 / 512 1 20 20 0 181.81s 56.32 281.61
    4 并发普通上下文 4096 / 512 4 10 10 0 44.94s 113.93 1025.39
    6 并发普通上下文 4096 / 512 6 50 50 0 172.87s 148.09 1332.81
    8 并发普通上下文 4096 / 512 8 50 50 0 149.76s 170.94 1538.48
    12 并发普通上下文 4096 / 512 12 50 50 0 236.90s 108.06 972.58
    长上下文 16384 / 512 2 20 20 0 192.28s 53.26 1757.45

    表格 2:延迟指标(TTFT / TPOT / ITL)

    测试场景 平均 TTFT P99 TTFT 平均 TPOT P99 TPOT P99 ITL
    单并发普通上下文 675.33ms 684.19ms 16.47ms 16.59ms 17.21ms
    4 并发普通上下文 2539.73ms 4174.28ms 25.62ms 28.45ms 24.38ms
    6 并发普通上下文 2812.72ms 5848.28ms 33.38ms 36.07ms 508.41ms
    8 并发普通上下文 3110.26ms 8321.04ms 38.25ms 41.46ms 515.14ms
    12 并发普通上下文 3593.71ms 12122.58ms 100.03ms 106.45ms 524.32ms
    长上下文 6423.67ms 8687.50ms 25.04ms 28.39ms 22.67ms

    6. 每用户体感输出速度

    每用户体感输出速度按以下公式估算:

    每用户输出速度 ≈ 1000 / 平均 TPOT(ms)
    
    测试场景 平均 TPOT 估算每用户输出速度
    单并发普通上下文 16.47ms 约 60.72 tok/s
    4 并发普通上下文 25.62ms 约 39.03 tok/s
    6 并发普通上下文 33.38ms 约 29.96 tok/s
    8 并发普通上下文 38.25ms 约 26.14 tok/s
    12 并发普通上下文 100.03ms 约 10.00 tok/s
    长上下文 25.04ms 约 39.94 tok/s

    补充:

    配置信息

    4a53387d-1f58-4c0d-9d7d-4a8485c27ee3-image.jpeg

    价格

    公司订购的一台测试机子,工作站样式,外壳应该是铝的定制的;整机5w多。我看淘宝上同款推理卡mr-100一张1.5w左右

    1 条回复 最后回复
    1
    • E 离线
      E 离线
      ezios
      编写于 最后由 ezios 编辑
      #2

      这家伙跟arc一样,待机功耗奇高,ixsmi官方工具查看显示待机功耗达到了45-50w。我在旁边调试,快热死我了

      Tony WangT 1 条回复 最后回复
      0
      • ,terryT terry 固定了此主题
      • terryT 在线
        terryT 在线
        terry
        超级版主
        编写于 最后由 terry 编辑
        #3

        稀有内容,很牛逼,这玩意怎么也不提下价格。有个表哥太臃肿了,你给修改下,分成两个。

        油管:https://www.youtube.com/@抡锤者

        E 1 条回复 最后回复
        0
        • E ezios

          这家伙跟arc一样,待机功耗奇高,ixsmi官方工具查看显示待机功耗达到了45-50w。我在旁边调试,快热死我了

          Tony WangT 离线
          Tony WangT 离线
          Tony Wang
          超级版主
          编写于 最后由 编辑
          #4

          @ezios

          多分享, 期待国产尽快能顶上来.

          1 条回复 最后回复
          1
          • M 在线
            M 在线
            mark
            超凡大师
            编写于 最后由 编辑
            #5

            牛逼, 国产显卡 开始支棱起来了.

            1 条回复 最后回复
            1
            • 5 离线
              5 离线
              566656661
              超凡大师
              编写于 最后由 编辑
              #6

              被動散熱估計也是data center的卡, 類似6000D的東東

              先不說家用要改散熱, 有點懷疑一張卡的價格估計都要20到30K了

              不過多一個玩家總是好事, 期待能把價格打下來 雖然以老黃的性格我覺得很難就是了

              E 1 条回复 最后回复
              1
              • terryT terry

                稀有内容,很牛逼,这玩意怎么也不提下价格。有个表哥太臃肿了,你给修改下,分成两个。

                E 离线
                E 离线
                ezios
                编写于 最后由 编辑
                #7

                @terry 已修改,拆分成两个表格,看着会舒服一些😊

                1 条回复 最后回复
                0
                • 5 566656661

                  被動散熱估計也是data center的卡, 類似6000D的東東

                  先不說家用要改散熱, 有點懷疑一張卡的價格估計都要20到30K了

                  不過多一個玩家總是好事, 期待能把價格打下來 雖然以老黃的性格我覺得很難就是了

                  E 离线
                  E 离线
                  ezios
                  编写于 最后由 编辑
                  #8

                  @566656661 我这里是个台式机,推理卡也是改了涡轮散热,太神奇了 😳

                  5 1 条回复 最后回复
                  0
                  • E ezios

                    @566656661 我这里是个台式机,推理卡也是改了涡轮散热,太神奇了 😳

                    5 离线
                    5 离线
                    566656661
                    超凡大师
                    编写于 最后由 编辑
                    #9

                    @ezios

                    因為數據中心的卡極度依賴機箱風扇和周邊的冷空氣

                    那些風扇基本上轉速都上個5到6千轉了, 改家用的話基本上就要另外裝個渦輪

                    E 1 条回复 最后回复
                    0
                    • 5 566656661

                      @ezios

                      因為數據中心的卡極度依賴機箱風扇和周邊的冷空氣

                      那些風扇基本上轉速都上個5到6千轉了, 改家用的話基本上就要另外裝個渦輪

                      E 离线
                      E 离线
                      ezios
                      编写于 最后由 编辑
                      #10

                      @566656661 这卡待机功耗也太高了,两张100w,在旁边闷热闷热的

                      5 1 条回复 最后回复
                      0
                      • E ezios

                        @566656661 这卡待机功耗也太高了,两张100w,在旁边闷热闷热的

                        5 离线
                        5 离线
                        566656661
                        超凡大师
                        编写于 最后由 编辑
                        #11

                        @ezios

                        估計驅動還沒有調校好吧, 藍綠紅三家的非魔改卡都有閒置降頻的設定, 降到200到300mhz

                        我之前的4090D 48GB閒置都要50到60w左右...核心頻率不會降下來

                        1 条回复 最后回复
                        0
                        • V 离线
                          V 离线
                          vosrock
                          德高望重 劳动模范
                          编写于 最后由 编辑
                          #12

                          反正后面都是要全力工作的了,待机功耗大无所谓拉

                          1 条回复 最后回复
                          0
                          • ,系统 取消固定了此主题

                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                          有了你的建议,这篇帖子会更精彩哦 💗

                          注册 登录
                          回复
                          • 在新帖中回复
                          登录后回复
                          • 从旧到新
                          • 从新到旧
                          • 最多赞同


                          • 登录

                          • 没有帐号? 注册

                          • 第一个帖子
                            最后一个帖子
                          0
                          • 版块
                          • 最新
                          • 标签
                          • 热门
                          • 用户
                          • 群组