跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 3090还是3090 *2+NVLink

3090还是3090 *2+NVLink

已定时 已固定 已锁定 已移动 AI硬件
22 帖子 8 发布者 424 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    starryskyknight
    编写于 最后由 starryskyknight 编辑
    #1

    如果我想安装 qwen 3.6 27b 模型
    主要是当hermes agent和 openclaw的本地模型
    会安装 Uncensored版本的

    1.建议使用 3090吗?
    2.一张跟两张 3090 +NVLink 差异大吗? 会建议两张吗?

    目前海外的价格 感觉这样买
    比买 4090 24G 或是 5090 32G划算
    不在国内 没办法买到 4090 48G ........

    目前主要使用
    1.Claude Opus 4.7 + thinking xhigh
    2.DeepSeek V4 Pro + thinking max
    3.MiniMax-M2.7 + thinking high
    希望能力能超过 "MiniMax-M2.7+thinking high"
    能跟 "DeepSeek V4 Pro+thinking max" 差不多就更好了

    1 条回复 最后回复
    0
    • terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #2

      我不用Deepseek V4 Pro,我都是用的Flash,跑Agent不需要那么大参数,280b都超标了,事实上Qwen3.6 27b可以完成绝大多数工作。它的问题是本地模型的工具链没有云端丰富。但是可以用V4 Flash作为fallback参数,本地不行就调用它。它执行完毕之后形成skills,本地模型再跑就可以了。你换成Qwen3.6 27b+Deepseek V4 Flash不会有多大差距。Hermes不太吃模型自身能力,它的harness做的不错。

      关于显卡,一张卡和两张卡+NVLink差距当然大,两张TP算力和显存都翻倍,减去框架开销也有1.8倍左右。3090单卡就够了,你多研究下Turboquant mtp dflash等技术,就一个turboquant搞定就够你玩了。

      现在不建议味了跑AI买5090,太贵了,你可以买个RTX Pro 4500 32G就够你用, 5000 48G, 6000 96G都是很好的选择。性能都够了,不会有啥便秘的感觉。5090烧接口,功耗太高这是基本无解的。它的溢价来自于游戏能力。

      S Peace LoveP 2 条回复 最后回复
      2
      • 墙内人墙 离线
        墙内人墙 离线
        墙内人
        编写于 最后由 编辑
        #3

        Claude Opus 4.5时代最好用,最近幻觉太多,minimax也不错,但是deepseek v4 flash便宜。本地就只有qwen 27b,但是速度远不如在线。

        一个懒人

        1 条回复 最后回复
        0
        • terryT terry

          我不用Deepseek V4 Pro,我都是用的Flash,跑Agent不需要那么大参数,280b都超标了,事实上Qwen3.6 27b可以完成绝大多数工作。它的问题是本地模型的工具链没有云端丰富。但是可以用V4 Flash作为fallback参数,本地不行就调用它。它执行完毕之后形成skills,本地模型再跑就可以了。你换成Qwen3.6 27b+Deepseek V4 Flash不会有多大差距。Hermes不太吃模型自身能力,它的harness做的不错。

          关于显卡,一张卡和两张卡+NVLink差距当然大,两张TP算力和显存都翻倍,减去框架开销也有1.8倍左右。3090单卡就够了,你多研究下Turboquant mtp dflash等技术,就一个turboquant搞定就够你玩了。

          现在不建议味了跑AI买5090,太贵了,你可以买个RTX Pro 4500 32G就够你用, 5000 48G, 6000 96G都是很好的选择。性能都够了,不会有啥便秘的感觉。5090烧接口,功耗太高这是基本无解的。它的溢价来自于游戏能力。

          S 离线
          S 离线
          starryskyknight
          编写于 最后由 编辑
          #4

          @terry 海外我的用途 最推荐的是哪张卡啊? 我看您比较推荐nvidia的生态

          terryT 1 条回复 最后回复
          0
          • 刘海彬刘 在线
            刘海彬刘 在线
            刘海彬
            编写于 最后由 编辑
            #5

            我目前使用rtx3090 跑qwen3.6 27B Q4量化,给hermes用基本可以的,就是有时候偶发工具调用死循环,我已经在hermes的人设内容限制很死了,概率降低了很多,但是偶尔还是会,我感觉是模型问题了。

            terryT 1 条回复 最后回复
            0
            • 刘海彬刘 刘海彬

              我目前使用rtx3090 跑qwen3.6 27B Q4量化,给hermes用基本可以的,就是有时候偶发工具调用死循环,我已经在hermes的人设内容限制很死了,概率降低了很多,但是偶尔还是会,我感觉是模型问题了。

              terryT 离线
              terryT 离线
              terry
              编写于 最后由 编辑
              #6

              @刘海彬 可能吧,我暂时没遇到,你是不是用了q4ks? Kv怎么量化的?

              刘海彬刘 1 条回复 最后回复
              0
              • S starryskyknight

                @terry 海外我的用途 最推荐的是哪张卡啊? 我看您比较推荐nvidia的生态

                terryT 离线
                terryT 离线
                terry
                编写于 最后由 编辑
                #7

                @starryskyknight 你预算都不说,a100最好

                S 1 条回复 最后回复
                0
                • terryT terry

                  @starryskyknight 你预算都不说,a100最好

                  S 离线
                  S 离线
                  starryskyknight
                  编写于 最后由 编辑
                  #8

                  terry 抱歉 预算大概一万七一万八人民币内

                  terryT 1 条回复 最后回复
                  0
                  • terryT terry

                    @刘海彬 可能吧,我暂时没遇到,你是不是用了q4ks? Kv怎么量化的?

                    刘海彬刘 在线
                    刘海彬刘 在线
                    刘海彬
                    编写于 最后由 编辑
                    #9

                    @terry 哥,我的启动参数如下:
                    /root/llama.cpp/build/bin/llama-server -m /data/models/gguf/Qwen3.6-27B-UD-Q4_K_XL.gguf --mmproj /data/models/gguf/Qwen3.6-27B-mmproj-F16.gguf --mmproj-offload --alias qwen36-27B-Q4 --jinja -ngl 999 -c 128000 -fa on --cache-ram 16384 --cache-type-k q8_0 --cache-type-v q8_0 -np 1 --sampling-seq k --top-k 1 --host 0.0.0.0 --port 11434 --reasoning on --reasoning-format deepseek --reasoning-budget 512

                    1 条回复 最后回复
                    0
                    • terryT 离线
                      terryT 离线
                      terry
                      编写于 最后由 编辑
                      #10

                      Q4_K_XL.gguf 这个模型比较大,不太好,不是越大越好的,你换成Q4KM,因为做的人多,兼容性更好。推理关掉, --reasoning-budget 512 改为0,跑Agent它推理极大影响效率,智力提升微乎其微,kv改为80k,可以尝试Truboquant版本。

                      刘海彬刘 1 条回复 最后回复
                      0
                      • terryT terry

                        Q4_K_XL.gguf 这个模型比较大,不太好,不是越大越好的,你换成Q4KM,因为做的人多,兼容性更好。推理关掉, --reasoning-budget 512 改为0,跑Agent它推理极大影响效率,智力提升微乎其微,kv改为80k,可以尝试Truboquant版本。

                        刘海彬刘 在线
                        刘海彬刘 在线
                        刘海彬
                        编写于 最后由 编辑
                        #11

                        @terry 好的,谢谢。我试一下

                        1 条回复 最后回复
                        0
                        • S starryskyknight

                          terry 抱歉 预算大概一万七一万八人民币内

                          terryT 离线
                          terryT 离线
                          terry
                          编写于 最后由 编辑
                          #12

                          @starryskyknight 你买4080S 32G,或加几千买RTX Pro4500 32G。如果想便宜3090 24G。

                          S 1 条回复 最后回复
                          0
                          • terryT terry

                            @starryskyknight 你买4080S 32G,或加几千买RTX Pro4500 32G。如果想便宜3090 24G。

                            S 离线
                            S 离线
                            starryskyknight
                            编写于 最后由 编辑
                            #13

                            @terry 感谢提供意见,在海外买不到4080S 32G 我找另外两张 再次感谢

                            1 条回复 最后回复
                            0
                            • 鍾子揚鍾 离线
                              鍾子揚鍾 离线
                              鍾子揚
                              编写于 最后由 鍾子揚 编辑
                              #14

                              https://www.reddit.com/r/LocalLLaMA/comments/1sw5fb7/qwen36_35b_a3b_heretic_kld_00015_incredible_model/

                              這個技術可以把整個qwen 3.6 35bA3B Q8量化+256k上下文塞進去24g vram~有點想跑看看

                              terryT 1 条回复 最后回复
                              0
                              • 鍾子揚鍾 鍾子揚

                                https://www.reddit.com/r/LocalLLaMA/comments/1sw5fb7/qwen36_35b_a3b_heretic_kld_00015_incredible_model/

                                這個技術可以把整個qwen 3.6 35bA3B Q8量化+256k上下文塞進去24g vram~有點想跑看看

                                terryT 离线
                                terryT 离线
                                terry
                                编写于 最后由 编辑
                                #15

                                @鍾子揚 不建议折腾35b,它不如27b强,甚至差距明显

                                1 条回复 最后回复
                                1
                                • 暧 离线
                                  暧 离线
                                  暧昧光影
                                  编写于 最后由 编辑
                                  #16

                                  看到up推荐3090,担心背面显存温度过高,加了点入了3090ti,up觉得怎么样@terry

                                  terryT 1 条回复 最后回复
                                  0
                                  • 暧 暧昧光影

                                    看到up推荐3090,担心背面显存温度过高,加了点入了3090ti,up觉得怎么样@terry

                                    terryT 离线
                                    terryT 离线
                                    terry
                                    编写于 最后由 编辑
                                    #17

                                    @暧昧光影 挺好的,做好散热都没啥问题。

                                    1 条回复 最后回复
                                    0
                                    • terryT terry

                                      我不用Deepseek V4 Pro,我都是用的Flash,跑Agent不需要那么大参数,280b都超标了,事实上Qwen3.6 27b可以完成绝大多数工作。它的问题是本地模型的工具链没有云端丰富。但是可以用V4 Flash作为fallback参数,本地不行就调用它。它执行完毕之后形成skills,本地模型再跑就可以了。你换成Qwen3.6 27b+Deepseek V4 Flash不会有多大差距。Hermes不太吃模型自身能力,它的harness做的不错。

                                      关于显卡,一张卡和两张卡+NVLink差距当然大,两张TP算力和显存都翻倍,减去框架开销也有1.8倍左右。3090单卡就够了,你多研究下Turboquant mtp dflash等技术,就一个turboquant搞定就够你玩了。

                                      现在不建议味了跑AI买5090,太贵了,你可以买个RTX Pro 4500 32G就够你用, 5000 48G, 6000 96G都是很好的选择。性能都够了,不会有啥便秘的感觉。5090烧接口,功耗太高这是基本无解的。它的溢价来自于游戏能力。

                                      Peace LoveP 离线
                                      Peace LoveP 离线
                                      Peace Love
                                      编写于 最后由 编辑
                                      #18

                                      @terry
                                      5090 的溢價 , 來自於將來能改 64G , 甚至 96G .
                                      🙄

                                      terryT 1 条回复 最后回复
                                      0
                                      • Peace LoveP Peace Love

                                        @terry
                                        5090 的溢價 , 來自於將來能改 64G , 甚至 96G .
                                        🙄

                                        terryT 离线
                                        terryT 离线
                                        terry
                                        编写于 最后由 编辑
                                        #19

                                        @Peace-Love 那何必呢,为什么不直接用Pro6000,性价比不是更高?

                                        Peace LoveP 1 条回复 最后回复
                                        0
                                        • M 离线
                                          M 离线
                                          muskelon
                                          编写于 最后由 编辑
                                          #20

                                          目前单3090 跑qwen 3.6 q4km 用了Truboquant 可以跑128k上下文 没什么问题

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组