跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 京东自营上了5090、6000pro,应该怎么选。

京东自营上了5090、6000pro,应该怎么选。

已定时 已固定 已锁定 已移动 AI硬件
23 帖子 7 发布者 604 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • ? 老用户

    我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
    GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
    Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
    这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
    3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
    3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~

    terryT 离线
    terryT 离线
    terry
    编写于 最后由 terry 编辑
    #11

    @Trypt-Wang 它很快啊,32G确实有时候没有48G爽,但是它可以战未来,可以改大显存啊😂 你养马用llama.cpp vllm 或者lucebox就可以了,27b 5090能玩到飞起,飞到你难以想象。不用sg-lang,sg-lang是版本地狱,论坛有帖子讲过选什么版本,时间比较久了,你认真找下,它对qwen3.6的支持很不好。

    油管:https://www.youtube.com/@抡锤者

    ? 1 条回复 最后回复
    0
    • terryT terry

      @Trypt-Wang 它很快啊,32G确实有时候没有48G爽,但是它可以战未来,可以改大显存啊😂 你养马用llama.cpp vllm 或者lucebox就可以了,27b 5090能玩到飞起,飞到你难以想象。不用sg-lang,sg-lang是版本地狱,论坛有帖子讲过选什么版本,时间比较久了,你认真找下,它对qwen3.6的支持很不好。

      ? 离线
      ? 离线
      老用户
      编写于 最后由 编辑
      #12

      @terry 那我得找找论坛帖子,我今天第一天上你的论坛~
      但27B量化4Bit后加载完也只剩下32K+的上下文,马跑不动呢。。。
      小马说要至少64K才跑的动。。。我目前碰到的状况~
      我再爬爬文吧~感谢~

      terryT 1 条回复 最后回复
      0
      • ? 老用户

        @terry 那我得找找论坛帖子,我今天第一天上你的论坛~
        但27B量化4Bit后加载完也只剩下32K+的上下文,马跑不动呢。。。
        小马说要至少64K才跑的动。。。我目前碰到的状况~
        我再爬爬文吧~感谢~

        terryT 离线
        terryT 离线
        terry
        编写于 最后由 编辑
        #13

        @Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
        https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
        https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux

        这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。

        3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。

        油管:https://www.youtube.com/@抡锤者

        ? 1 条回复 最后回复
        0
        • terryT terry

          @Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
          https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
          https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux

          这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。

          3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。

          ? 离线
          ? 离线
          老用户
          编写于 最后由 编辑
          #14

          @terry 感谢感谢!我不怕麻烦,也不怕折腾~这就拜读一下这两个帖子~

          1 条回复 最后回复
          0
          • ? 老用户

            我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
            GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
            Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
            这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
            3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
            3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~

            A 离线
            A 离线
            airbrush
            编写于 最后由 编辑
            #15

            @Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB

            Windows 11 Pro (Build 26200)
            ├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
            └── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
            ├── llama.cpp v9294 (CUDA 后端)
            │ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
            │ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
            ├── Hermes Agent v0.14.0 (Python 3.11.15)

            RTX 5090: 32 GB 总显存
            ├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
            ├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
            └── 剩余 ≈ 468 MB ⚠️ 几乎耗尽

            我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧 😢

            另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry

            ? 1 条回复 最后回复
            0
            • terryT 离线
              terryT 离线
              terry
              编写于 最后由 编辑
              #16

              3.6-27B-Q5_K_M 换成Q4KM,这个我说了很多次了,另外可以尝试apex版本。

              油管:https://www.youtube.com/@抡锤者

              A 1 条回复 最后回复
              0
              • A airbrush

                @Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB

                Windows 11 Pro (Build 26200)
                ├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
                └── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
                ├── llama.cpp v9294 (CUDA 后端)
                │ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
                │ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
                ├── Hermes Agent v0.14.0 (Python 3.11.15)

                RTX 5090: 32 GB 总显存
                ├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
                ├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
                └── 剩余 ≈ 468 MB ⚠️ 几乎耗尽

                我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧 😢

                另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry

                ? 离线
                ? 离线
                老用户
                编写于 最后由 编辑
                #17

                @airbrush 哦~我也分享一下:

                • Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
                • MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)

                本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~

                我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~

                terryT A 2 条回复 最后回复
                0
                • ? 老用户

                  @airbrush 哦~我也分享一下:

                  • Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
                  • MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)

                  本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~

                  我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~

                  terryT 离线
                  terryT 离线
                  terry
                  编写于 最后由 编辑
                  #18

                  @Trypt-Wang 大哥你的卡qwen3.6 27b 256k上下文给你吃满了,怎么会不够呢,速度不需要优化都飞快。肯定是你配置出问题了。qwen3.6 27b q4 km,你直接下载LM studio,KV设置为Q8量化,上下文设置为最大,不做任何优化就行了。

                  油管:https://www.youtube.com/@抡锤者

                  1 条回复 最后回复
                  0
                  • terryT terry

                    3.6-27B-Q5_K_M 换成Q4KM,这个我说了很多次了,另外可以尝试apex版本。

                    A 离线
                    A 离线
                    airbrush
                    编写于 最后由 编辑
                    #19

                    @terry 锤兄 你说的Q4KM 是这个https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/blob/main/Qwen3.6-27B-Q4_K_M.gguf 版本吗?

                    apex版本 又是哪个版本? 是这个吗 Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP ?

                    小白 还不太懂😢

                    terryT 1 条回复 最后回复
                    0
                    • ? 老用户

                      @airbrush 哦~我也分享一下:

                      • Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
                      • MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)

                      本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~

                      我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~

                      A 离线
                      A 离线
                      airbrush
                      编写于 最后由 编辑
                      #20

                      @Trypt-Wang 5090 32G卡 开不到256k上下文吧,如果搞定了 给分析哦 ~!👍 😊

                      1 条回复 最后回复
                      0
                      • A airbrush

                        @terry 锤兄 你说的Q4KM 是这个https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/blob/main/Qwen3.6-27B-Q4_K_M.gguf 版本吗?

                        apex版本 又是哪个版本? 是这个吗 Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP ?

                        小白 还不太懂😢

                        terryT 离线
                        terryT 离线
                        terry
                        编写于 最后由 编辑
                        #21

                        @airbrush 你直接下载LM Studio,然后再UI界面搜索qwen3.6 27b q4km就可以了。

                        油管:https://www.youtube.com/@抡锤者

                        Tony WangT 1 条回复 最后回复
                        0
                        • terryT terry

                          @airbrush 你直接下载LM Studio,然后再UI界面搜索qwen3.6 27b q4km就可以了。

                          Tony WangT 在线
                          Tony WangT 在线
                          Tony Wang
                          编写于 最后由 编辑
                          #22

                          @terry

                          32G 开 256K, 是不是得 KV 开启Q8?

                          terryT 1 条回复 最后回复
                          0
                          • Tony WangT Tony Wang

                            @terry

                            32G 开 256K, 是不是得 KV 开启Q8?

                            terryT 离线
                            terryT 离线
                            terry
                            编写于 最后由 编辑
                            #23

                            @Tony-Wang 是的Q8 KV,可以跑满256k上下文,优化下能跑几个会话,实际上都用128k上下文,多开更合理,hermes 128k体验已经不错了。

                            油管:https://www.youtube.com/@抡锤者

                            1 条回复 最后回复
                            0

                            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                            有了你的建议,这篇帖子会更精彩哦 💗

                            注册 登录
                            回复
                            • 在新帖中回复
                            登录后回复
                            • 从旧到新
                            • 从新到旧
                            • 最多赞同


                            • 登录

                            • 没有帐号? 注册

                            • 登录或注册以进行搜索。
                            • 第一个帖子
                              最后一个帖子
                            0
                            • 版块
                            • 最新
                            • 标签
                            • 热门
                            • 用户
                            • 群组