跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 买了2张5060Ti,谁能跑最便宜的Qwen 27B?

买了2张5060Ti,谁能跑最便宜的Qwen 27B?

已定时 已固定 已锁定 已移动 AI硬件
33 帖子 14 发布者 875 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT 在线
    terryT 在线
    terry
    编写于 最后由 编辑
    #3

    2张可以用VLLM双卡TP,可以折腾下,其实这卡远不如3080.只能跑跑模型,comfyUI没啥意义。但是跑模型带宽也紧张,不过能跑。

    1 条回复 最后回复
    1
    • TideT 离线
      TideT 离线
      Tide
      编写于 最后由 编辑
      #4

      我的3080跑3.6-27B-Q4KM 上下文65536刚刚够用,每秒差不多32token。对我来说也满足了,毕竟3080玩本地部署才刚刚够入门。刚加载的时候占用18181M显存,随着对话没啥变化。我一般开着watch -n 2 nvidia-smi实时监控显卡,我现在就怕它高温。显存温度最高来到92度,让我揪心。

      terryT Vivid VectorV yesen19771004Y 3 条回复 最后回复
      1
      • Eric HOE 离线
        Eric HOE 离线
        Eric HO
        编写于 最后由 Eric HO 编辑
        #5

        我兩張3060 12G跑3.6-27B-Q4KM~ 用RotorQuant版llama.cpp
        一張大概才6500台幣

        墙内人墙 S 19-徐福政1 3 条回复 最后回复
        1
        • Eric HOE Eric HO

          我兩張3060 12G跑3.6-27B-Q4KM~ 用RotorQuant版llama.cpp
          一張大概才6500台幣

          墙内人墙 离线
          墙内人墙 离线
          墙内人
          编写于 最后由 编辑
          #6

          @Eric-HO 那你也懂技术,挺不错的,一般人还真跑不起来。

          一个懒人

          1 条回复 最后回复
          0
          • TideT Tide

            我的3080跑3.6-27B-Q4KM 上下文65536刚刚够用,每秒差不多32token。对我来说也满足了,毕竟3080玩本地部署才刚刚够入门。刚加载的时候占用18181M显存,随着对话没啥变化。我一般开着watch -n 2 nvidia-smi实时监控显卡,我现在就怕它高温。显存温度最高来到92度,让我揪心。

            terryT 在线
            terryT 在线
            terry
            编写于 最后由 编辑
            #7

            @Tide 3080是神卡。

            1 条回复 最后回复
            0
            • Eric HOE Eric HO

              我兩張3060 12G跑3.6-27B-Q4KM~ 用RotorQuant版llama.cpp
              一張大概才6500台幣

              S 离线
              S 离线
              seewoscott
              编写于 最后由 编辑
              #8

              @Eric-HO 这是通过NV link显存合并的吗?

              terryT 1 条回复 最后回复
              0
              • Vivid VectorV 离线
                Vivid VectorV 离线
                Vivid Vector
                编写于 最后由 编辑
                #9

                @Tide 限制显卡功率,同时给显存超频,测试一下稳定性。
                我用着2080Ti 22GB改水冷的,用Nvidia Inspector工具,把功率限制在200W~230W,核心超频+40Mhz(也可以不超核心),显存超频+1200Mhz,跑下来温度最高只有不到50°C,热点不超过65°C,室温27°C左右。
                c5e7bceb-5567-4c81-a8fe-141ef62f31cb-image.jpeg
                显存超频后带宽721.6GB/s,相比默认的616GB/s,提升超过17%,完美抵消限制功率导致的核心频率下降带来的性能损失,直接节约100W,33%的功率

                Qwen 27B Q4_K_M,上下文开32K跑下来,decode 25 tok/s

                用Llama.cpp benchmark跑分如图:
                全默认,显卡功率300W:
                651469fd-d0f4-49b3-9a39-0b9db73f5c9d-image.jpeg

                核心超频+40Mhz,显存超频+1200Mhz:
                2d1fcffb-c888-402a-a6bf-5634b04712d4-image.jpeg

                核心超频+40Mhz,显存超频+1200Mhz,显卡功率锁67%限制在200W:
                daa6d53a-0eef-4ffb-85ab-14ad9a2030a4-image.jpeg

                大语言模型主的矩阵运算要跑在GPU的Tensor Cores上,对GPU其他部分如大量的SM单元里的CUDA核心占用不高,GPU此时对功率的实际消耗并不需要太高。

                并且大语言模型prefill阶段对核心频率有一定依赖,但降频对prefill性能影响不太大。
                decode吐字阶段,对显存带宽的依赖程度大于核心算力,经常是显存带宽不足,喂不饱核心,核心有很多时间都在空转等数据。

                综上,你的3080可以尝试限制功率,并小超显存,给显卡背板加装散热铝片+风扇。
                然后实测看看数据。

                暧 terryT TideT 3 条回复 最后回复
                1
                • Vivid VectorV Vivid Vector

                  @Tide 限制显卡功率,同时给显存超频,测试一下稳定性。
                  我用着2080Ti 22GB改水冷的,用Nvidia Inspector工具,把功率限制在200W~230W,核心超频+40Mhz(也可以不超核心),显存超频+1200Mhz,跑下来温度最高只有不到50°C,热点不超过65°C,室温27°C左右。
                  c5e7bceb-5567-4c81-a8fe-141ef62f31cb-image.jpeg
                  显存超频后带宽721.6GB/s,相比默认的616GB/s,提升超过17%,完美抵消限制功率导致的核心频率下降带来的性能损失,直接节约100W,33%的功率

                  Qwen 27B Q4_K_M,上下文开32K跑下来,decode 25 tok/s

                  用Llama.cpp benchmark跑分如图:
                  全默认,显卡功率300W:
                  651469fd-d0f4-49b3-9a39-0b9db73f5c9d-image.jpeg

                  核心超频+40Mhz,显存超频+1200Mhz:
                  2d1fcffb-c888-402a-a6bf-5634b04712d4-image.jpeg

                  核心超频+40Mhz,显存超频+1200Mhz,显卡功率锁67%限制在200W:
                  daa6d53a-0eef-4ffb-85ab-14ad9a2030a4-image.jpeg

                  大语言模型主的矩阵运算要跑在GPU的Tensor Cores上,对GPU其他部分如大量的SM单元里的CUDA核心占用不高,GPU此时对功率的实际消耗并不需要太高。

                  并且大语言模型prefill阶段对核心频率有一定依赖,但降频对prefill性能影响不太大。
                  decode吐字阶段,对显存带宽的依赖程度大于核心算力,经常是显存带宽不足,喂不饱核心,核心有很多时间都在空转等数据。

                  综上,你的3080可以尝试限制功率,并小超显存,给显卡背板加装散热铝片+风扇。
                  然后实测看看数据。

                  暧 离线
                  暧 离线
                  暧昧光影
                  编写于 最后由 编辑
                  #10

                  @Vivid-Vector 3090ti有参数么?

                  Vivid VectorV 1 条回复 最后回复
                  0
                  • 暧 暧昧光影

                    @Vivid-Vector 3090ti有参数么?

                    Vivid VectorV 离线
                    Vivid VectorV 离线
                    Vivid Vector
                    编写于 最后由 编辑
                    #11

                    @暧昧光影
                    手上暂时没有3090Ti。
                    不过按我的经验,温度能控制得住的情况下,锁功率,小超核心,大超显存,对于跑LLM来说都适用。
                    B站有人实测PRO 6000 Max-Q 版,功率只有300W,相比满血600W的工作站版只损失10%的性能,而且他还没给显存超频。

                    我看到的PRO 6000,跑LLM经常都是吃不满功耗,TDP 600W的工作站版,只吃到450W左右的样子。
                    跑满600W功耗的情况,通常是GPU SM里的CUDA核心满载,Tensor Cores也接近满载,同时显存空间和带宽也占用很高的情况才会出现。
                    LLM的矩阵运算主要靠Tensor Cores执行,且吃满显存空间和带宽,但SM CUDA核心通常空载。

                    1 条回复 最后回复
                    0
                    • TideT Tide

                      我的3080跑3.6-27B-Q4KM 上下文65536刚刚够用,每秒差不多32token。对我来说也满足了,毕竟3080玩本地部署才刚刚够入门。刚加载的时候占用18181M显存,随着对话没啥变化。我一般开着watch -n 2 nvidia-smi实时监控显卡,我现在就怕它高温。显存温度最高来到92度,让我揪心。

                      Vivid VectorV 离线
                      Vivid VectorV 离线
                      Vivid Vector
                      编写于 最后由 编辑
                      #12

                      @Tide
                      nvtop也是个不错的N卡监控工具,支持多卡
                      fa5aab5b-f138-4ef8-a014-297c9638bc60-image.jpeg

                      TideT 1 条回复 最后回复
                      1
                      • Eric HOE Eric HO

                        我兩張3060 12G跑3.6-27B-Q4KM~ 用RotorQuant版llama.cpp
                        一張大概才6500台幣

                        19-徐福政1 离线
                        19-徐福政1 离线
                        19-徐福政
                        编写于 最后由 19-徐福政 编辑
                        #13

                        @Eric-HO
                        是用 https://github.com/TheTom/llama-cpp-turboquant 嗎
                        能跑多少 t/s
                        能給我llama.cpp的參數嗎 我想參考

                        你覺得我現在只有一張3070ti 8g 如果再加一張3060 12g能順跑3.6-27B-Q4KM嗎

                        我現在用
                        cpu 5900x
                        ram 64g
                        gpu 3070ti 8g

                        -ngl 9 -c 87475 -np 1 -t 12 -b 1024
                        -ctk turbo4 -ctv turbo4 -fa on
                        --jinja --cache-reuse 1024
                        --slot-save-path cache --spec-type ngram-mod
                        --spec-ngram-size-n 6 `
                        --draft-min 16 --draft-max 96

                        qwen3.6-27b-q4_k_m.gguf 2.84 t/s 左右
                        Qwen3.6-35B-A3B-IQ4_XS.gguf 35 t/s 左右

                        terryT 1 条回复 最后回复
                        0
                        • S 离线
                          S 离线
                          stakira
                          编写于 最后由 编辑
                          #14

                          两张 5060 ti 用 vllm 跑 tensor parallel 速度应该不错的,期待实测数字

                          AresROCA 1 条回复 最后回复
                          0
                          • Vivid VectorV Vivid Vector

                            @Tide 限制显卡功率,同时给显存超频,测试一下稳定性。
                            我用着2080Ti 22GB改水冷的,用Nvidia Inspector工具,把功率限制在200W~230W,核心超频+40Mhz(也可以不超核心),显存超频+1200Mhz,跑下来温度最高只有不到50°C,热点不超过65°C,室温27°C左右。
                            c5e7bceb-5567-4c81-a8fe-141ef62f31cb-image.jpeg
                            显存超频后带宽721.6GB/s,相比默认的616GB/s,提升超过17%,完美抵消限制功率导致的核心频率下降带来的性能损失,直接节约100W,33%的功率

                            Qwen 27B Q4_K_M,上下文开32K跑下来,decode 25 tok/s

                            用Llama.cpp benchmark跑分如图:
                            全默认,显卡功率300W:
                            651469fd-d0f4-49b3-9a39-0b9db73f5c9d-image.jpeg

                            核心超频+40Mhz,显存超频+1200Mhz:
                            2d1fcffb-c888-402a-a6bf-5634b04712d4-image.jpeg

                            核心超频+40Mhz,显存超频+1200Mhz,显卡功率锁67%限制在200W:
                            daa6d53a-0eef-4ffb-85ab-14ad9a2030a4-image.jpeg

                            大语言模型主的矩阵运算要跑在GPU的Tensor Cores上,对GPU其他部分如大量的SM单元里的CUDA核心占用不高,GPU此时对功率的实际消耗并不需要太高。

                            并且大语言模型prefill阶段对核心频率有一定依赖,但降频对prefill性能影响不太大。
                            decode吐字阶段,对显存带宽的依赖程度大于核心算力,经常是显存带宽不足,喂不饱核心,核心有很多时间都在空转等数据。

                            综上,你的3080可以尝试限制功率,并小超显存,给显卡背板加装散热铝片+风扇。
                            然后实测看看数据。

                            terryT 在线
                            terryT 在线
                            terry
                            编写于 最后由 编辑
                            #15

                            @Vivid-Vector 牛逼啊兄弟,居然这么会玩,发个帖子说下你的2080Ti,我说2080Ti是垃圾之后,很多人不爽喷我,我想是不是我太武断了,你有信息分享下。跑大模型,ComfyUI实际体验,最好带图,让我坐一起视频,嘿嘿 🤤

                            1 条回复 最后回复
                            1
                            • 19-徐福政1 19-徐福政

                              @Eric-HO
                              是用 https://github.com/TheTom/llama-cpp-turboquant 嗎
                              能跑多少 t/s
                              能給我llama.cpp的參數嗎 我想參考

                              你覺得我現在只有一張3070ti 8g 如果再加一張3060 12g能順跑3.6-27B-Q4KM嗎

                              我現在用
                              cpu 5900x
                              ram 64g
                              gpu 3070ti 8g

                              -ngl 9 -c 87475 -np 1 -t 12 -b 1024
                              -ctk turbo4 -ctv turbo4 -fa on
                              --jinja --cache-reuse 1024
                              --slot-save-path cache --spec-type ngram-mod
                              --spec-ngram-size-n 6 `
                              --draft-min 16 --draft-max 96

                              qwen3.6-27b-q4_k_m.gguf 2.84 t/s 左右
                              Qwen3.6-35B-A3B-IQ4_XS.gguf 35 t/s 左右

                              terryT 在线
                              terryT 在线
                              terry
                              编写于 最后由 编辑
                              #16

                              @19-徐福政 你两张3070ti也只有16g,它还是会offload到CPU还是慢,27b稠密是推理时必须27b全量参与,Moe快是因为专家load到显存中去。你不要升级,就用35b a3b挺好的,差距当然有,但是没到不能玩,配置一个在线Deepseek,搞不定的事让Deepseek 跑。

                              1 条回复 最后回复
                              1
                              • S seewoscott

                                @Eric-HO 这是通过NV link显存合并的吗?

                                terryT 在线
                                terryT 在线
                                terry
                                编写于 最后由 编辑
                                #17

                                @seewoscott 不需要,走PICE就可以

                                1 条回复 最后回复
                                1
                                • S stakira

                                  两张 5060 ti 用 vllm 跑 tensor parallel 速度应该不错的,期待实测数字

                                  AresROCA 离线
                                  AresROCA 离线
                                  AresROC
                                  编写于 最后由 AresROC 编辑
                                  #18

                                  @stakira 今天才收到其中一張RTX 5060Ti,另外一張要等個星期。

                                  明天計劃收購兩個R T X 3090 希望成功到手試試。

                                  實際測試方法還要研究研究。傷腦筋還要搞個NvLink。。。

                                  terryT S 2 条回复 最后回复
                                  1
                                  • AresROCA AresROC

                                    @stakira 今天才收到其中一張RTX 5060Ti,另外一張要等個星期。

                                    明天計劃收購兩個R T X 3090 希望成功到手試試。

                                    實際測試方法還要研究研究。傷腦筋還要搞個NvLink。。。

                                    terryT 在线
                                    terryT 在线
                                    terry
                                    编写于 最后由 编辑
                                    #19

                                    @AresROC 到时候记得发一个详细的测试帖子,如果有双3090测试的更好,我白嫖做视频。

                                    AresROCA 1 条回复 最后回复
                                    0
                                    • S 离线
                                      S 离线
                                      steafler
                                      编写于 最后由 编辑
                                      #20

                                      直接卖了,换4080S

                                      1 条回复 最后回复
                                      0
                                      • terryT terry

                                        @AresROC 到时候记得发一个详细的测试帖子,如果有双3090测试的更好,我白嫖做视频。

                                        AresROCA 离线
                                        AresROCA 离线
                                        AresROC
                                        编写于 最后由 编辑
                                        #21

                                        @terry 好的,我做了RTX 5070 Ti加上RTX 5060 Ti 16GB. PCIe 3.0x4 Bus. Qwen3.6-27b 速度还可以Q4有26.7 Token/s。LmStudio会把大部分记忆体放在5070 T I上。

                                        單卡3090 Q4得到35 Token/s. Power limit 80%让记忆体温度低一点先 不然会升到105度C

                                        我也是50+看到你今天的视频有提到😆

                                        目前只是搞windows加上LMStudio。日后改进Linux加上vLLM或别的。还会搞ComfyUi。

                                        我找到一个电脑可以塞這两个3090。我會想辦法先測試一下再等NvL ink到货。

                                        terryT 1 条回复 最后回复
                                        2
                                        • AresROCA AresROC

                                          @terry 好的,我做了RTX 5070 Ti加上RTX 5060 Ti 16GB. PCIe 3.0x4 Bus. Qwen3.6-27b 速度还可以Q4有26.7 Token/s。LmStudio会把大部分记忆体放在5070 T I上。

                                          單卡3090 Q4得到35 Token/s. Power limit 80%让记忆体温度低一点先 不然会升到105度C

                                          我也是50+看到你今天的视频有提到😆

                                          目前只是搞windows加上LMStudio。日后改进Linux加上vLLM或别的。还会搞ComfyUi。

                                          我找到一个电脑可以塞這两个3090。我會想辦法先測試一下再等NvL ink到货。

                                          terryT 在线
                                          terryT 在线
                                          terry
                                          编写于 最后由 编辑
                                          #22

                                          @AresROC 有空多弄点分享帖子,我一看有图有真相,我就不用什么都自己验证了,相互学习。

                                          1 条回复 最后回复
                                          1

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组