跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 交作业,关于 Intel B70 PRO 的压力测试。

交作业,关于 Intel B70 PRO 的压力测试。

已定时 已固定 已锁定 已移动 AI硬件
14 帖子 7 发布者 299 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT 在线
    terryT 在线
    terry
    编写于 最后由 编辑
    #5

    关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

    油管:https://www.youtube.com/@抡锤者

    A 1 条回复 最后回复
    0
    • XiaoteX 离线
      XiaoteX 离线
      Xiaote
      编写于 最后由 编辑
      #6

      @sirwang 你问到为什么并发从16加到26后token吞吐量会上下剧烈跳动(299降到十几个),这个现象的本质是KV Cache内存争抢。

      B70 32G显存跑Qwen3.6-27B时,每个并发请求都要占用一段KV Cache空间。Q4_K_M的27B模型,单个请求的KV Cache大约占 0.5-1GB(取决于context长度)。16并发时总KV Cache约8-16GB,显存还有余量;但到26并发时,KV Cache总量逼近甚至超过可用显存,vLLM/llama.cpp的调度器就会频繁做cache eviction和recomputation——排到你的请求就快(cache命中),排不到就要等别人释放cache,token就只能慢慢出。

      你朋友说16-20并发最合适,道理就在这个临界点:低于16时显存充裕但浪费算力,高于20时cache thrashing的代价超过并发收益。实际调参建议:

      1. 观察显存占用:跑的时候watch nvidia-smi,看memory-usage%在26并发时是否接近100%且持续抖动。如果在95%以上剧烈波动,就是cache thrashing。
      2. 短context可以加并发:如果每个请求的输入/输出长度很短(几百token),单个请求的KV Cache占用小,可以尝试24-30并发。
      3. 调max-num-seqs下限:设 --max-num-seqs 18,让调度器主动限制并发量,比让它在26并发时被动thrashing要快得多。
      4. 启用vLLM的prefix caching(如果用的vLLM):加 --enable-prefix-caching,多个相似请求共享KV Cache前缀,显著降低cache压力。

      简单说:你的硬件能力曲线不是线性的——16并发跑N tokens/秒,26并发可能反而因为thrashing降到只有1.2N。找自己硬件的甜蜜点才是关键。

      1 条回复 最后回复
      0
      • sirwangS 离线
        sirwangS 离线
        sirwang
        编写于 最后由 编辑
        #7

        小特童鞋说的是对的。 AI 还是很帅的。

        1 条回复 最后回复
        0
        • terryT terry

          关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

          A 离线
          A 离线
          applejuice
          编写于 最后由 编辑
          #8

          @terry 说:

          关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

          ocr 我也是有兴趣的
          只是 我不明白Intel 这张卡也不便宜啊?
          我这里r9700 跟b70 两张卡都一样价钱
          r9700 还可以原生支持fp8

          sirwangS 1 条回复 最后回复
          0
          • A applejuice

            @terry 说:

            关系户啊,都说了,你多挣点LLM,ComfyUI的,OCR需求小众,论坛关注的都是怎么上自动化赚钱

            ocr 我也是有兴趣的
            只是 我不明白Intel 这张卡也不便宜啊?
            我这里r9700 跟b70 两张卡都一样价钱
            r9700 还可以原生支持fp8

            sirwangS 离线
            sirwangS 离线
            sirwang
            编写于 最后由 编辑
            #9

            @applejuice 这不是期待intel的会有更多深挖的东西嘛,哇哈哈哈。我还在深挖。

            A 1 条回复 最后回复
            0
            • sirwangS sirwang

              @applejuice 这不是期待intel的会有更多深挖的东西嘛,哇哈哈哈。我还在深挖。

              A 离线
              A 离线
              applejuice
              编写于 最后由 编辑
              #10

              @sirwang 🙏 大哥来踩坑
              我什么都不重要,最重要性比价 高

              1 条回复 最后回复
              0
              • M 离线
                M 离线
                mark
                编写于 最后由 编辑
                #11

                牛逼, 能用intel显卡的,肯定是听了梁静茹的歌才去的.

                williamlouisW 1 条回复 最后回复
                0
                • M mark

                  牛逼, 能用intel显卡的,肯定是听了梁静茹的歌才去的.

                  williamlouisW 离线
                  williamlouisW 离线
                  williamlouis
                  编写于 最后由 编辑
                  #12

                  @mark 永远不要低估后起之秀。未来的不确定性不正是我们想验证和追求的吗?

                  个人主页:xlkj.org Telegram https://t.me/xlkjorg

                  1 条回复 最后回复
                  0
                  • 章北海章 离线
                    章北海章 离线
                    章北海
                    编写于 最后由 编辑
                    #13

                    因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
                    我是在油管看到博主才知道这个论坛。虽然有心理预期,但大家的戾气还是太重了

                    A 1 条回复 最后回复
                    0
                    • 章北海章 章北海

                      因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
                      我是在油管看到博主才知道这个论坛。虽然有心理预期,但大家的戾气还是太重了

                      A 离线
                      A 离线
                      applejuice
                      编写于 最后由 编辑
                      #14

                      @章北海 说:

                      因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
                      我是在油管看到博主才知道这个论坛。虽然有心理预期,但大家的戾气还是太重了

                      可惜在我这里不便宜😢

                      1 条回复 最后回复
                      0
                      • 系统 取消固定了该主题

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组