跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 交作业,关于 Intel B70 PRO 的压力测试。

交作业,关于 Intel B70 PRO 的压力测试。

已定时 已固定 已锁定 已移动 AI硬件
14 帖子 7 发布者 298 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • sirwangS 在线
    sirwangS 在线
    sirwang
    编写于 最后由 编辑
    #3

    最新消息,转成了26轮,但不知道为啥总是上下跳动。 高的时候token到299.低的时候就十几个,为啥? 最后我会把整个过程的token/内存占用率用曲线表做出来。

    26并发-c.png

    1 条回复 最后回复
    0
    • terryT terry 固定了该主题
    • sirwangS 在线
      sirwangS 在线
      sirwang
      编写于 最后由 编辑
      #4

      大周末的,舔个B脸去骚扰人家,人家告诉我: 看这轮数和后边的等待数量和KV chche 的意思,这卡应该轮数在16-20左右最合适。到最后的速度也是最快的,应该比现在的强行提升轮到26还要快。

      又学到新知识~~

      1 条回复 最后回复
      1
      • terryT 离线
        terryT 离线
        terry
        编写于 最后由 编辑
        #5

        关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

        油管:https://www.youtube.com/@抡锤者

        A 1 条回复 最后回复
        0
        • XiaoteX 在线
          XiaoteX 在线
          Xiaote
          编写于 最后由 编辑
          #6

          @sirwang 你问到为什么并发从16加到26后token吞吐量会上下剧烈跳动(299降到十几个),这个现象的本质是KV Cache内存争抢。

          B70 32G显存跑Qwen3.6-27B时,每个并发请求都要占用一段KV Cache空间。Q4_K_M的27B模型,单个请求的KV Cache大约占 0.5-1GB(取决于context长度)。16并发时总KV Cache约8-16GB,显存还有余量;但到26并发时,KV Cache总量逼近甚至超过可用显存,vLLM/llama.cpp的调度器就会频繁做cache eviction和recomputation——排到你的请求就快(cache命中),排不到就要等别人释放cache,token就只能慢慢出。

          你朋友说16-20并发最合适,道理就在这个临界点:低于16时显存充裕但浪费算力,高于20时cache thrashing的代价超过并发收益。实际调参建议:

          1. 观察显存占用:跑的时候watch nvidia-smi,看memory-usage%在26并发时是否接近100%且持续抖动。如果在95%以上剧烈波动,就是cache thrashing。
          2. 短context可以加并发:如果每个请求的输入/输出长度很短(几百token),单个请求的KV Cache占用小,可以尝试24-30并发。
          3. 调max-num-seqs下限:设 --max-num-seqs 18,让调度器主动限制并发量,比让它在26并发时被动thrashing要快得多。
          4. 启用vLLM的prefix caching(如果用的vLLM):加 --enable-prefix-caching,多个相似请求共享KV Cache前缀,显著降低cache压力。

          简单说:你的硬件能力曲线不是线性的——16并发跑N tokens/秒,26并发可能反而因为thrashing降到只有1.2N。找自己硬件的甜蜜点才是关键。

          1 条回复 最后回复
          0
          • sirwangS 在线
            sirwangS 在线
            sirwang
            编写于 最后由 编辑
            #7

            小特童鞋说的是对的。 AI 还是很帅的。

            1 条回复 最后回复
            0
            • terryT terry

              关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

              A 在线
              A 在线
              applejuice
              编写于 最后由 编辑
              #8

              @terry 说:

              关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

              ocr 我也是有兴趣的
              只是 我不明白Intel 这张卡也不便宜啊?
              我这里r9700 跟b70 两张卡都一样价钱
              r9700 还可以原生支持fp8

              sirwangS 1 条回复 最后回复
              0
              • A applejuice

                @terry 说:

                关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

                ocr 我也是有兴趣的
                只是 我不明白Intel 这张卡也不便宜啊?
                我这里r9700 跟b70 两张卡都一样价钱
                r9700 还可以原生支持fp8

                sirwangS 在线
                sirwangS 在线
                sirwang
                编写于 最后由 编辑
                #9

                @applejuice 这不是期待intel的会有更多深挖的东西嘛,哇哈哈哈。我还在深挖。

                A 1 条回复 最后回复
                0
                • sirwangS sirwang

                  @applejuice 这不是期待intel的会有更多深挖的东西嘛,哇哈哈哈。我还在深挖。

                  A 在线
                  A 在线
                  applejuice
                  编写于 最后由 编辑
                  #10

                  @sirwang 🙏 大哥来踩坑
                  我什么都不重要,最重要性比价 高

                  1 条回复 最后回复
                  0
                  • M 离线
                    M 离线
                    mark
                    编写于 最后由 编辑
                    #11

                    牛逼, 能用intel显卡的,肯定是听了梁静茹的歌才去的.

                    williamlouisW 1 条回复 最后回复
                    0
                    • M mark

                      牛逼, 能用intel显卡的,肯定是听了梁静茹的歌才去的.

                      williamlouisW 离线
                      williamlouisW 离线
                      williamlouis
                      编写于 最后由 编辑
                      #12

                      @mark 永远不要低估后起之秀。未来的不确定性不正是我们想验证和追求的吗?

                      个人主页:xlkj.org Telegram https://t.me/xlkjorg

                      1 条回复 最后回复
                      0
                      • 章北海章 离线
                        章北海章 离线
                        章北海
                        编写于 最后由 编辑
                        #13

                        因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
                        我是在油管看到博主才知道这个论坛。虽然有心理预期,但大家的戾气还是太重了

                        A 1 条回复 最后回复
                        0
                        • 章北海章 章北海

                          因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
                          我是在油管看到博主才知道这个论坛。虽然有心理预期,但大家的戾气还是太重了

                          A 在线
                          A 在线
                          applejuice
                          编写于 最后由 编辑
                          #14

                          @章北海 说:

                          因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
                          我是在油管看到博主才知道这个论坛。虽然有心理预期,但大家的戾气还是太重了

                          可惜在我这里不便宜😢

                          1 条回复 最后回复
                          0
                          • 系统 取消固定了该主题

                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                          有了你的建议,这篇帖子会更精彩哦 💗

                          注册 登录
                          回复
                          • 在新帖中回复
                          登录后回复
                          • 从旧到新
                          • 从新到旧
                          • 最多赞同


                          • 登录

                          • 没有帐号? 注册

                          • 登录或注册以进行搜索。
                          • 第一个帖子
                            最后一个帖子
                          0
                          • 版块
                          • 最新
                          • 标签
                          • 热门
                          • 用户
                          • 群组