跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 买了2张5060Ti,谁能跑最便宜的Qwen 27B?

买了2张5060Ti,谁能跑最便宜的Qwen 27B?

已定时 已固定 已锁定 已移动 AI硬件
47 帖子 17 发布者 1.7k 浏览 3 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT terry

    @AresROC 老铁单独发个帖子吧,流程讲清楚,写成Markdown格式,截图和数据放好,我给你来个置顶。

    AresROCA 离线
    AresROCA 离线
    AresROC
    德高望重
    编写于 最后由 AresROC 编辑
    #38

    @terry 目前vllm Qwen3.6-27B 还是搞不定,假如成功的话再发 😬

    16+16=32GB 跑不了没有天理,
    最近LmStudio出了 TP, 假如可以跑我也想试试

    terryT 1 条回复 最后回复
    0
    • AresROCA AresROC

      @terry 目前vllm Qwen3.6-27B 还是搞不定,假如成功的话再发 😬

      16+16=32GB 跑不了没有天理,
      最近LmStudio出了 TP, 假如可以跑我也想试试

      terryT 离线
      terryT 离线
      terry
      超级版主
      编写于 最后由 编辑
      #39

      @AresROC 加油,等你交作业。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • CHAO WANGC 离线
        CHAO WANGC 离线
        CHAO WANG
        编写于 最后由 编辑
        #40

        我也想组双5060TI 16G,不知道什么效果

        1 条回复 最后回复
        0
        • C 离线
          C 离线
          comeN
          编写于 最后由 编辑
          #41

          双5060TI 16G跑英伟达专门为50显卡优化的Qwen3.6-27B-NVFP4-MTP的表现比双3080-20G还好,NVFP4的优化号称无损Q4,速度40-70T,论坛里面有人发的。

          kos orK 1 条回复 最后回复
          1
          • kos orK 离线
            kos orK 离线
            kos or
            劳动模范 德高望重
            编写于 最后由 编辑
            #42

            MTP TG 50 t/s , 這MTP 為這個Dual RTX 5060 Ti 16 GB 組合增高了不少實用價值, 假如我都還沒買顯卡 試試6張 RTX 5060 Ti 16GB 組成 96GB VRAM 組 (用Workstation 主機板 6 x PCIe 4.0 x 16 lanes , 通訊速度 32 GB/s) 做Tensor Parallelism 張量並行 不知道TG 表現如何 ?

            1 条回复 最后回复
            0
            • kos orK 离线
              kos orK 离线
              kos or
              劳动模范 德高望重
              编写于 最后由 kos or 编辑
              #43

              MTP 版本需要設一個參數 Draft tokens (num_speculative_tokens or spec-draft-n-max): AI 幫我測試過 最後1 或 2 是最快的參數, 你也是設定1 或 2 嗎?2 速度只比1 快了3 tokens /s 但是它有一個"準確度" 降了很多(浪費算力) 我跟AI都認同Qwen3.6-27B-MTP-GGUF 最後選擇1 是最佳MTP參數

              4e3f6ade-72fb-4f1b-9501-9638d9e78d57-image.jpeg

              AresROCA 1 条回复 最后回复
              0
              • C comeN

                双5060TI 16G跑英伟达专门为50显卡优化的Qwen3.6-27B-NVFP4-MTP的表现比双3080-20G还好,NVFP4的优化号称无损Q4,速度40-70T,论坛里面有人发的。

                kos orK 离线
                kos orK 离线
                kos or
                劳动模范 德高望重
                编写于 最后由 kos or 编辑
                #44

                @comeN 不知道還有這個版本 我請AI幫我測試一下 Qwen3.6-27B-NVFP4-MTP (目前狀態:一早起來Deepseek V4 Flash 給我下載一個 90GB的TesnorRT-LLM, 現在又說這太大了 要刪除 幫我安裝一個20GB版本的TensorRT來跑測試 哈哈 暈了)

                1 条回复 最后回复
                0
                • C 离线
                  C 离线
                  comeN
                  编写于 最后由 编辑
                  #45

                  NVFP4号称不是无损,但损失小到感知不到,几乎等同于FP16,这可比Q4强不少。

                  1 条回复 最后回复
                  0
                  • kos orK kos or

                    MTP 版本需要設一個參數 Draft tokens (num_speculative_tokens or spec-draft-n-max): AI 幫我測試過 最後1 或 2 是最快的參數, 你也是設定1 或 2 嗎?2 速度只比1 快了3 tokens /s 但是它有一個"準確度" 降了很多(浪費算力) 我跟AI都認同Qwen3.6-27B-MTP-GGUF 最後選擇1 是最佳MTP參數

                    4e3f6ade-72fb-4f1b-9501-9638d9e78d57-image.jpeg

                    AresROCA 离线
                    AresROCA 离线
                    AresROC
                    德高望重
                    编写于 最后由 AresROC 编辑
                    #46

                    @kos-or 上面试的都是MTP=3。目前在研究FP4 & 升级CUDA 13.2,13.3。

                    1 条回复 最后回复
                    0
                    • kos orK 离线
                      kos orK 离线
                      kos or
                      劳动模范 德高望重
                      编写于 最后由 编辑
                      #47

                      我用的是llama.cpp + Ubuntu + 2 x RTX5070 Ti in PP 來跑同樣一個模型, 最佳MTP draft-n 設定居然會不同 有趣了

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组