跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 京东自营上了5090、6000pro,应该怎么选。

京东自营上了5090、6000pro,应该怎么选。

已定时 已固定 已锁定 已移动 AI硬件
23 帖子 7 发布者 604 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT terry

    @Trypt-Wang 它很快啊,32G确实有时候没有48G爽,但是它可以战未来,可以改大显存啊😂 你养马用llama.cpp vllm 或者lucebox就可以了,27b 5090能玩到飞起,飞到你难以想象。不用sg-lang,sg-lang是版本地狱,论坛有帖子讲过选什么版本,时间比较久了,你认真找下,它对qwen3.6的支持很不好。

    ? 离线
    ? 离线
    老用户
    编写于 最后由 编辑
    #12

    @terry 那我得找找论坛帖子,我今天第一天上你的论坛~
    但27B量化4Bit后加载完也只剩下32K+的上下文,马跑不动呢。。。
    小马说要至少64K才跑的动。。。我目前碰到的状况~
    我再爬爬文吧~感谢~

    terryT 1 条回复 最后回复
    0
    • ? 老用户

      @terry 那我得找找论坛帖子,我今天第一天上你的论坛~
      但27B量化4Bit后加载完也只剩下32K+的上下文,马跑不动呢。。。
      小马说要至少64K才跑的动。。。我目前碰到的状况~
      我再爬爬文吧~感谢~

      terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #13

      @Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
      https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
      https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux

      这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。

      3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。

      油管:https://www.youtube.com/@抡锤者

      ? 1 条回复 最后回复
      0
      • terryT terry

        @Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
        https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
        https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux

        这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。

        3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。

        ? 离线
        ? 离线
        老用户
        编写于 最后由 编辑
        #14

        @terry 感谢感谢!我不怕麻烦,也不怕折腾~这就拜读一下这两个帖子~

        1 条回复 最后回复
        0
        • ? 老用户

          我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
          GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
          Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
          这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
          3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
          3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~

          A 离线
          A 离线
          airbrush
          编写于 最后由 编辑
          #15

          @Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB

          Windows 11 Pro (Build 26200)
          ├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
          └── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
          ├── llama.cpp v9294 (CUDA 后端)
          │ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
          │ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
          ├── Hermes Agent v0.14.0 (Python 3.11.15)

          RTX 5090: 32 GB 总显存
          ├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
          ├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
          └── 剩余 ≈ 468 MB ⚠️ 几乎耗尽

          我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧 😢

          另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry

          ? 1 条回复 最后回复
          0
          • terryT 离线
            terryT 离线
            terry
            编写于 最后由 编辑
            #16

            3.6-27B-Q5_K_M 换成Q4KM,这个我说了很多次了,另外可以尝试apex版本。

            油管:https://www.youtube.com/@抡锤者

            A 1 条回复 最后回复
            0
            • A airbrush

              @Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB

              Windows 11 Pro (Build 26200)
              ├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
              └── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
              ├── llama.cpp v9294 (CUDA 后端)
              │ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
              │ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
              ├── Hermes Agent v0.14.0 (Python 3.11.15)

              RTX 5090: 32 GB 总显存
              ├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
              ├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
              └── 剩余 ≈ 468 MB ⚠️ 几乎耗尽

              我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧 😢

              另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry

              ? 离线
              ? 离线
              老用户
              编写于 最后由 编辑
              #17

              @airbrush 哦~我也分享一下:

              • Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
              • MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)

              本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~

              我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~

              terryT A 2 条回复 最后回复
              0
              • ? 老用户

                @airbrush 哦~我也分享一下:

                • Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
                • MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)

                本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~

                我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~

                terryT 离线
                terryT 离线
                terry
                编写于 最后由 编辑
                #18

                @Trypt-Wang 大哥你的卡qwen3.6 27b 256k上下文给你吃满了,怎么会不够呢,速度不需要优化都飞快。肯定是你配置出问题了。qwen3.6 27b q4 km,你直接下载LM studio,KV设置为Q8量化,上下文设置为最大,不做任何优化就行了。

                油管:https://www.youtube.com/@抡锤者

                1 条回复 最后回复
                0
                • terryT terry

                  3.6-27B-Q5_K_M 换成Q4KM,这个我说了很多次了,另外可以尝试apex版本。

                  A 离线
                  A 离线
                  airbrush
                  编写于 最后由 编辑
                  #19

                  @terry 锤兄 你说的Q4KM 是这个https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/blob/main/Qwen3.6-27B-Q4_K_M.gguf 版本吗?

                  apex版本 又是哪个版本? 是这个吗 Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP ?

                  小白 还不太懂😢

                  terryT 1 条回复 最后回复
                  0
                  • ? 老用户

                    @airbrush 哦~我也分享一下:

                    • Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
                    • MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)

                    本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~

                    我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~

                    A 离线
                    A 离线
                    airbrush
                    编写于 最后由 编辑
                    #20

                    @Trypt-Wang 5090 32G卡 开不到256k上下文吧,如果搞定了 给分析哦 ~!👍 😊

                    1 条回复 最后回复
                    0
                    • A airbrush

                      @terry 锤兄 你说的Q4KM 是这个https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/blob/main/Qwen3.6-27B-Q4_K_M.gguf 版本吗?

                      apex版本 又是哪个版本? 是这个吗 Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP ?

                      小白 还不太懂😢

                      terryT 离线
                      terryT 离线
                      terry
                      编写于 最后由 编辑
                      #21

                      @airbrush 你直接下载LM Studio,然后再UI界面搜索qwen3.6 27b q4km就可以了。

                      油管:https://www.youtube.com/@抡锤者

                      Tony WangT 1 条回复 最后回复
                      0
                      • terryT terry

                        @airbrush 你直接下载LM Studio,然后再UI界面搜索qwen3.6 27b q4km就可以了。

                        Tony WangT 在线
                        Tony WangT 在线
                        Tony Wang
                        编写于 最后由 编辑
                        #22

                        @terry

                        32G 开 256K, 是不是得 KV 开启Q8?

                        terryT 1 条回复 最后回复
                        0
                        • Tony WangT Tony Wang

                          @terry

                          32G 开 256K, 是不是得 KV 开启Q8?

                          terryT 离线
                          terryT 离线
                          terry
                          编写于 最后由 编辑
                          #23

                          @Tony-Wang 是的Q8 KV,可以跑满256k上下文,优化下能跑几个会话,实际上都用128k上下文,多开更合理,hermes 128k体验已经不错了。

                          油管:https://www.youtube.com/@抡锤者

                          1 条回复 最后回复
                          0

                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                          有了你的建议,这篇帖子会更精彩哦 💗

                          注册 登录
                          回复
                          • 在新帖中回复
                          登录后回复
                          • 从旧到新
                          • 从新到旧
                          • 最多赞同


                          • 登录

                          • 没有帐号? 注册

                          • 登录或注册以进行搜索。
                          • 第一个帖子
                            最后一个帖子
                          0
                          • 版块
                          • 最新
                          • 标签
                          • 热门
                          • 用户
                          • 群组