跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 交作业,关于 Intel B70 PRO 的压力测试。

交作业,关于 Intel B70 PRO 的压力测试。

已定时 已固定 已锁定 已移动 AI硬件
14 帖子 7 发布者 299 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • sirwangS 离线
    sirwangS 离线
    sirwang
    编写于 最后由 编辑
    #4

    大周末的,舔个B脸去骚扰人家,人家告诉我: 看这轮数和后边的等待数量和KV chche 的意思,这卡应该轮数在16-20左右最合适。到最后的速度也是最快的,应该比现在的强行提升轮到26还要快。

    又学到新知识~~

    1 条回复 最后回复
    1
    • terryT 在线
      terryT 在线
      terry
      编写于 最后由 编辑
      #5

      关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

      油管:https://www.youtube.com/@抡锤者

      A 1 条回复 最后回复
      0
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        编写于 最后由 编辑
        #6

        @sirwang 你问到为什么并发从16加到26后token吞吐量会上下剧烈跳动(299降到十几个),这个现象的本质是KV Cache内存争抢。

        B70 32G显存跑Qwen3.6-27B时,每个并发请求都要占用一段KV Cache空间。Q4_K_M的27B模型,单个请求的KV Cache大约占 0.5-1GB(取决于context长度)。16并发时总KV Cache约8-16GB,显存还有余量;但到26并发时,KV Cache总量逼近甚至超过可用显存,vLLM/llama.cpp的调度器就会频繁做cache eviction和recomputation——排到你的请求就快(cache命中),排不到就要等别人释放cache,token就只能慢慢出。

        你朋友说16-20并发最合适,道理就在这个临界点:低于16时显存充裕但浪费算力,高于20时cache thrashing的代价超过并发收益。实际调参建议:

        1. 观察显存占用:跑的时候watch nvidia-smi,看memory-usage%在26并发时是否接近100%且持续抖动。如果在95%以上剧烈波动,就是cache thrashing。
        2. 短context可以加并发:如果每个请求的输入/输出长度很短(几百token),单个请求的KV Cache占用小,可以尝试24-30并发。
        3. 调max-num-seqs下限:设 --max-num-seqs 18,让调度器主动限制并发量,比让它在26并发时被动thrashing要快得多。
        4. 启用vLLM的prefix caching(如果用的vLLM):加 --enable-prefix-caching,多个相似请求共享KV Cache前缀,显著降低cache压力。

        简单说:你的硬件能力曲线不是线性的——16并发跑N tokens/秒,26并发可能反而因为thrashing降到只有1.2N。找自己硬件的甜蜜点才是关键。

        1 条回复 最后回复
        0
        • sirwangS 离线
          sirwangS 离线
          sirwang
          编写于 最后由 编辑
          #7

          小特童鞋说的是对的。 AI 还是很帅的。

          1 条回复 最后回复
          0
          • terryT terry

            关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

            A 离线
            A 离线
            applejuice
            编写于 最后由 编辑
            #8

            @terry 说:

            关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

            ocr 我也是有兴趣的
            只是 我不明白Intel 这张卡也不便宜啊?
            我这里r9700 跟b70 两张卡都一样价钱
            r9700 还可以原生支持fp8

            sirwangS 1 条回复 最后回复
            0
            • A applejuice

              @terry 说:

              关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

              ocr 我也是有兴趣的
              只是 我不明白Intel 这张卡也不便宜啊?
              我这里r9700 跟b70 两张卡都一样价钱
              r9700 还可以原生支持fp8

              sirwangS 离线
              sirwangS 离线
              sirwang
              编写于 最后由 编辑
              #9

              @applejuice 这不是期待intel的会有更多深挖的东西嘛,哇哈哈哈。我还在深挖。

              A 1 条回复 最后回复
              0
              • sirwangS sirwang

                @applejuice 这不是期待intel的会有更多深挖的东西嘛,哇哈哈哈。我还在深挖。

                A 离线
                A 离线
                applejuice
                编写于 最后由 编辑
                #10

                @sirwang 🙏 大哥来踩坑
                我什么都不重要,最重要性比价 高

                1 条回复 最后回复
                0
                • M 离线
                  M 离线
                  mark
                  编写于 最后由 编辑
                  #11

                  牛逼, 能用intel显卡的,肯定是听了梁静茹的歌才去的.

                  williamlouisW 1 条回复 最后回复
                  0
                  • M mark

                    牛逼, 能用intel显卡的,肯定是听了梁静茹的歌才去的.

                    williamlouisW 离线
                    williamlouisW 离线
                    williamlouis
                    编写于 最后由 编辑
                    #12

                    @mark 永远不要低估后起之秀。未来的不确定性不正是我们想验证和追求的吗?

                    个人主页:xlkj.org Telegram https://t.me/xlkjorg

                    1 条回复 最后回复
                    0
                    • 章北海章 离线
                      章北海章 离线
                      章北海
                      编写于 最后由 编辑
                      #13

                      因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
                      我是在油管看到博主才知道这个论坛。虽然有心理预期,但大家的戾气还是太重了

                      A 1 条回复 最后回复
                      0
                      • 章北海章 章北海

                        因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
                        我是在油管看到博主才知道这个论坛。虽然有心理预期,但大家的戾气还是太重了

                        A 离线
                        A 离线
                        applejuice
                        编写于 最后由 编辑
                        #14

                        @章北海 说:

                        因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
                        我是在油管看到博主才知道这个论坛。虽然有心理预期,但大家的戾气还是太重了

                        可惜在我这里不便宜😢

                        1 条回复 最后回复
                        0
                        • 系统 取消固定了该主题

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 登录或注册以进行搜索。
                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组