跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 买了2张5060Ti,谁能跑最便宜的Qwen 27B?

买了2张5060Ti,谁能跑最便宜的Qwen 27B?

已定时 已固定 已锁定 已移动 AI硬件
33 帖子 14 发布者 875 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S seewoscott

    @Eric-HO 这是通过NV link显存合并的吗?

    terryT 离线
    terryT 离线
    terry
    编写于 最后由 编辑
    #17

    @seewoscott 不需要,走PICE就可以

    1 条回复 最后回复
    1
    • S stakira

      两张 5060 ti 用 vllm 跑 tensor parallel 速度应该不错的,期待实测数字

      AresROCA 离线
      AresROCA 离线
      AresROC
      编写于 最后由 AresROC 编辑
      #18

      @stakira 今天才收到其中一張RTX 5060Ti,另外一張要等個星期。

      明天計劃收購兩個R T X 3090 希望成功到手試試。

      實際測試方法還要研究研究。傷腦筋還要搞個NvLink。。。

      terryT S 2 条回复 最后回复
      1
      • AresROCA AresROC

        @stakira 今天才收到其中一張RTX 5060Ti,另外一張要等個星期。

        明天計劃收購兩個R T X 3090 希望成功到手試試。

        實際測試方法還要研究研究。傷腦筋還要搞個NvLink。。。

        terryT 离线
        terryT 离线
        terry
        编写于 最后由 编辑
        #19

        @AresROC 到时候记得发一个详细的测试帖子,如果有双3090测试的更好,我白嫖做视频。

        AresROCA 1 条回复 最后回复
        0
        • S 离线
          S 离线
          steafler
          编写于 最后由 编辑
          #20

          直接卖了,换4080S

          1 条回复 最后回复
          0
          • terryT terry

            @AresROC 到时候记得发一个详细的测试帖子,如果有双3090测试的更好,我白嫖做视频。

            AresROCA 离线
            AresROCA 离线
            AresROC
            编写于 最后由 编辑
            #21

            @terry 好的,我做了RTX 5070 Ti加上RTX 5060 Ti 16GB. PCIe 3.0x4 Bus. Qwen3.6-27b 速度还可以Q4有26.7 Token/s。LmStudio会把大部分记忆体放在5070 T I上。

            單卡3090 Q4得到35 Token/s. Power limit 80%让记忆体温度低一点先 不然会升到105度C

            我也是50+看到你今天的视频有提到😆

            目前只是搞windows加上LMStudio。日后改进Linux加上vLLM或别的。还会搞ComfyUi。

            我找到一个电脑可以塞這两个3090。我會想辦法先測試一下再等NvL ink到货。

            terryT 1 条回复 最后回复
            2
            • AresROCA AresROC

              @terry 好的,我做了RTX 5070 Ti加上RTX 5060 Ti 16GB. PCIe 3.0x4 Bus. Qwen3.6-27b 速度还可以Q4有26.7 Token/s。LmStudio会把大部分记忆体放在5070 T I上。

              單卡3090 Q4得到35 Token/s. Power limit 80%让记忆体温度低一点先 不然会升到105度C

              我也是50+看到你今天的视频有提到😆

              目前只是搞windows加上LMStudio。日后改进Linux加上vLLM或别的。还会搞ComfyUi。

              我找到一个电脑可以塞這两个3090。我會想辦法先測試一下再等NvL ink到货。

              terryT 离线
              terryT 离线
              terry
              编写于 最后由 编辑
              #22

              @AresROC 有空多弄点分享帖子,我一看有图有真相,我就不用什么都自己验证了,相互学习。

              1 条回复 最后回复
              1
              • Vivid VectorV Vivid Vector

                @Tide
                nvtop也是个不错的N卡监控工具,支持多卡
                fa5aab5b-f138-4ef8-a014-297c9638bc60-image.jpeg

                TideT 离线
                TideT 离线
                Tide
                编写于 最后由 编辑
                #23

                Vivid-Vector 👍 下载个来试试

                1 条回复 最后回复
                0
                • Vivid VectorV Vivid Vector

                  @Tide 限制显卡功率,同时给显存超频,测试一下稳定性。
                  我用着2080Ti 22GB改水冷的,用Nvidia Inspector工具,把功率限制在200W~230W,核心超频+40Mhz(也可以不超核心),显存超频+1200Mhz,跑下来温度最高只有不到50°C,热点不超过65°C,室温27°C左右。
                  c5e7bceb-5567-4c81-a8fe-141ef62f31cb-image.jpeg
                  显存超频后带宽721.6GB/s,相比默认的616GB/s,提升超过17%,完美抵消限制功率导致的核心频率下降带来的性能损失,直接节约100W,33%的功率

                  Qwen 27B Q4_K_M,上下文开32K跑下来,decode 25 tok/s

                  用Llama.cpp benchmark跑分如图:
                  全默认,显卡功率300W:
                  651469fd-d0f4-49b3-9a39-0b9db73f5c9d-image.jpeg

                  核心超频+40Mhz,显存超频+1200Mhz:
                  2d1fcffb-c888-402a-a6bf-5634b04712d4-image.jpeg

                  核心超频+40Mhz,显存超频+1200Mhz,显卡功率锁67%限制在200W:
                  daa6d53a-0eef-4ffb-85ab-14ad9a2030a4-image.jpeg

                  大语言模型主的矩阵运算要跑在GPU的Tensor Cores上,对GPU其他部分如大量的SM单元里的CUDA核心占用不高,GPU此时对功率的实际消耗并不需要太高。

                  并且大语言模型prefill阶段对核心频率有一定依赖,但降频对prefill性能影响不太大。
                  decode吐字阶段,对显存带宽的依赖程度大于核心算力,经常是显存带宽不足,喂不饱核心,核心有很多时间都在空转等数据。

                  综上,你的3080可以尝试限制功率,并小超显存,给显卡背板加装散热铝片+风扇。
                  然后实测看看数据。

                  TideT 离线
                  TideT 离线
                  Tide
                  编写于 最后由 Tide 编辑
                  #24

                  @Vivid-Vector 牛逼,我也想限制一下3080的功率,显卡背板太烫手。这贴我留下了。感谢

                  1 条回复 最后回复
                  0
                  • AresROCA 离线
                    AresROCA 离线
                    AresROC
                    编写于 最后由 编辑
                    #25

                    RTX3090 更新记忆前后的散热。温度一定要看着点。😅
                    IMG_2056.jpeg

                    terryT 1 条回复 最后回复
                    1
                    • 林小麟林 离线
                      林小麟林 离线
                      林小麟
                      编写于 最后由 编辑
                      #26

                      小白如果要即插即用,兩張5060TI 16G 插X99,用windows LMstudio,直接載QWEN3.6 27B Q4KM,KV Q8量化,可以拉到120k context,速度大概18token/s。以上是個人親測,屬於可用的程度。

                      1 条回复 最后回复
                      1
                      • TideT Tide

                        我的3080跑3.6-27B-Q4KM 上下文65536刚刚够用,每秒差不多32token。对我来说也满足了,毕竟3080玩本地部署才刚刚够入门。刚加载的时候占用18181M显存,随着对话没啥变化。我一般开着watch -n 2 nvidia-smi实时监控显卡,我现在就怕它高温。显存温度最高来到92度,让我揪心。

                        yesen19771004Y 离线
                        yesen19771004Y 离线
                        yesen19771004
                        编写于 最后由 编辑
                        #27

                        @Tide 上下文64K有点不够,128K就很棒。不过估计再几个月,用V4架构的新的小模型出来,上下文就足够大了。

                        1 条回复 最后回复
                        1
                        • AresROCA AresROC

                          RTX3090 更新记忆前后的散热。温度一定要看着点。😅
                          IMG_2056.jpeg

                          terryT 离线
                          terryT 离线
                          terry
                          编写于 最后由 编辑
                          #28

                          @AresROC 老弟这工件台专业啊

                          1 条回复 最后回复
                          0
                          • AresROCA AresROC

                            @stakira 今天才收到其中一張RTX 5060Ti,另外一張要等個星期。

                            明天計劃收購兩個R T X 3090 希望成功到手試試。

                            實際測試方法還要研究研究。傷腦筋還要搞個NvLink。。。

                            S 离线
                            S 离线
                            stakira
                            编写于 最后由 编辑
                            #29

                            @AresROC 催更了兄弟

                            AresROCA 1 条回复 最后回复
                            0
                            • S stakira

                              @AresROC 催更了兄弟

                              AresROCA 离线
                              AresROCA 离线
                              AresROC
                              编写于 最后由 AresROC 编辑
                              #30

                              @stakira 5060Ti #2 仍未收到. 上面有同仁發的速度可以參考。vLLM 环境我会尽快搞。

                              RTX 3090 双卡LlamaCpp相关内容,在另一篇帖子中可查看。

                              1 条回复 最后回复
                              0
                              • jianyuan zhangJ 离线
                                jianyuan zhangJ 离线
                                jianyuan zhang
                                编写于 最后由 编辑
                                #31

                                @terry 我有张改的4090散热器的TESLA V100 32G,想问下能不能跑本地QWEN3.6 27B?

                                terryT 1 条回复 最后回复
                                0
                                • jianyuan zhangJ jianyuan zhang

                                  @terry 我有张改的4090散热器的TESLA V100 32G,想问下能不能跑本地QWEN3.6 27B?

                                  terryT 离线
                                  terryT 离线
                                  terry
                                  编写于 最后由 编辑
                                  #32

                                  @jianyuan-zhang 简单说就是不能,很慢,体验很差,不值得折腾。

                                  1 条回复 最后回复
                                  0
                                  • jianyuan zhangJ 离线
                                    jianyuan zhangJ 离线
                                    jianyuan zhang
                                    编写于 最后由 编辑
                                    #33

                                    @terry OK ,谢谢,马上处理掉

                                    1 条回复 最后回复
                                    0

                                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                    有了你的建议,这篇帖子会更精彩哦 💗

                                    注册 登录
                                    回复
                                    • 在新帖中回复
                                    登录后回复
                                    • 从旧到新
                                    • 从新到旧
                                    • 最多赞同


                                    • 登录

                                    • 没有帐号? 注册

                                    • 登录或注册以进行搜索。
                                    • 第一个帖子
                                      最后一个帖子
                                    0
                                    • 版块
                                    • 最新
                                    • 标签
                                    • 热门
                                    • 用户
                                    • 群组