跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 關於本地版的模型

關於本地版的模型

已定时 已固定 已锁定 已移动 LLM讨论区
15 帖子 5 发布者 128 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • 怪物怪 在线
    怪物怪 在线
    怪物
    发表于 最后由 编辑
    #1

    各位前輩大家好:
    我是一個看不懂英文的電腦外行人,
    看了版主的視頻後,剛從openclaw龍蝦改換到HERMES,
    我的電腦是U9 285K CPU,192G DDR5記憶體,
    NVIDIA RTX PRO™ 6000 Blackwell Max-Q Workstation Edition 96G顯示卡
    現在安裝了本地版的hermes,用了qwen3-vl:32B跟qwen3.5:122B的模型
    但是122B的模型無法讀取視訊,32B的模型雖然能讀取視訊,但回應都很簡略(有點笨),
    我查了ChatGPT等AI然後下載了幾個qwen3.6的模型,但是hermes都不能正常使用,
    想請問各位前輩,可以推薦幾個能讀取圖片跟視訊,而且能讓hernes使用的多模態模型,
    有70B以上的,體積在80G以內的更好,
    謝謝大家

    J 1 条回复 最后回复
    0
    • 老 离线
      老 离线
      老茶
      发表于 最后由 编辑
      #2

      这块卡很有特点,300W的功耗,性能没有损失太多,后续升级潜力大,一直在关注。

      怪物怪 1 条回复 最后回复
      0
      • terryT 离线
        terryT 离线
        terry
        超级版主
        发表于 最后由 编辑
        #3

        你说122B模型无法读取视频,这个没办法帮你验证,我们没有那么大显存跑122b模型,我感觉还是你设置有问题,千问3.6都是多模态的,不可能122B就无法识别。

        安装Qwen3.7 27b模型,或者Qwen3.6 35b A3b。没有没有模型比Qwen3.6 27b模型能打的,你折腾好这个模型就行了。你硬件这么强,无所谓什么框架,驱动hermes怎么会不能用?有什么问题?具体情况你要详细描述,操作系统,AI推理软件,模型,错误信息,你要贴出来啊。

        油管:https://www.youtube.com/@抡锤者

        怪物怪 1 条回复 最后回复
        0
        • 怪物怪 在线
          怪物怪 在线
          怪物
          发表于 最后由 编辑
          #4
          此主題已被删除!
          1 条回复 最后回复
          0
          • 怪物怪 在线
            怪物怪 在线
            怪物
            发表于 最后由 terry 编辑
            #5
            此主題已被删除!
            1 条回复 最后回复
            0
            • terryT terry

              你说122B模型无法读取视频,这个没办法帮你验证,我们没有那么大显存跑122b模型,我感觉还是你设置有问题,千问3.6都是多模态的,不可能122B就无法识别。

              安装Qwen3.7 27b模型,或者Qwen3.6 35b A3b。没有没有模型比Qwen3.6 27b模型能打的,你折腾好这个模型就行了。你硬件这么强,无所谓什么框架,驱动hermes怎么会不能用?有什么问题?具体情况你要详细描述,操作系统,AI推理软件,模型,错误信息,你要贴出来啊。

              怪物怪 在线
              怪物怪 在线
              怪物
              发表于 最后由 terry 编辑
              #6

              @terry
              我的122B是千問3.5的,它只可以讀文檔跟圖片,
              至於千問3.6,這是昨天我按照ChatGPT的只是安裝後他給的答案:

              這次錯誤已經很明確:
              failed to initialize model: qwen3next:
              layer 40 missing attn_qkv/attn_gate projections
              結論:你的 Q6、Q8 檔案不是壞掉;是目前 Ollama 無法正確載入這種 Qwen3.6 / Qwen3Next 架構。
              你已經用「HF 直接 pull」和「本機 GGUF + Modelfile」兩種方式都測過,Q6、Q8 都同樣失敗,所以不是下載問題。
              這個錯誤和 Ollama 對 Qwen3-Next / Qwen3.5 類 MoE / hybrid 架構支援不完整有關。GitHub 上也有人回報同類錯誤,例如 qwen3next: layer 0 missing attn_qkv/attn_gate projections,在不同 Ollama 版本都出現過。
              現在該怎麼做
              你如果堅持「不用 llama.cpp、只用 Ollama 給 Hermes」,目前這個 Qwen3.6-35B-A3B 暫時不能用。不是你的操作錯,而是 Ollama 後端不支援或有 bug。
              先把不能跑的 Q6 / Q8 從 Ollama 清單移除,保留實體 GGUF 檔案在 C 碟:

              不過我今天問了hermes,他自己主動幫我下在新的千問3.6模型,並且已經可以使用了,
              而且可以自動利用我電腦裡的ComfyUI幫我生成圖片,現在正在測試生成視頻
              謝謝

              1 条回复 最后回复
              0
              • terryT 离线
                terryT 离线
                terry
                超级版主
                发表于 最后由 terry 编辑
                #7

                1,换用llama.cpp,甚至你可以用lmstudio先玩起来。
                2,你也不说系统。
                3,下载Qwen3.6 Q4KM就行了,你的显存可以空下来做多会话和kv,Q4精度足够了。

                你别用==这样的符号作为分割线,特别大,影响阅读。

                油管:https://www.youtube.com/@抡锤者

                怪物怪 1 条回复 最后回复
                0
                • 老 老茶

                  这块卡很有特点,300W的功耗,性能没有损失太多,后续升级潜力大,一直在关注。

                  怪物怪 在线
                  怪物怪 在线
                  怪物
                  发表于 最后由 编辑
                  #8

                  @老茶
                  我買的時候不知道它的差異,這個max-Q的便宜1萬塊,我就買了
                  實際使用上感覺很不錯,70~122B的模型都能順跑,ComfyUI生成一張普通圖片只要6~10秒,
                  而且高效運轉時約75~85度C,電腦後方它的渦輪風扇排出的熱氣比機殼本身14CM的風扇還強,
                  我就在想,如果是一般版的600W,一定會熱爆。

                  1 条回复 最后回复
                  0
                  • terryT terry

                    1,换用llama.cpp,甚至你可以用lmstudio先玩起来。
                    2,你也不说系统。
                    3,下载Qwen3.6 Q4KM就行了,你的显存可以空下来做多会话和kv,Q4精度足够了。

                    你别用==这样的符号作为分割线,特别大,影响阅读。

                    怪物怪 在线
                    怪物怪 在线
                    怪物
                    发表于 最后由 编辑
                    #9

                    @terry
                    好的,不好意思,我再研究看看,謝謝

                    terryT 1 条回复 最后回复
                    0
                    • 怪物怪 怪物

                      @terry
                      好的,不好意思,我再研究看看,謝謝

                      terryT 离线
                      terryT 离线
                      terry
                      超级版主
                      发表于 最后由 编辑
                      #10

                      @怪物 你搜下,你这个显存这么大,是不是有FP8的量化模型,如果有,那最适合你的卡,速度快,精度也够。我们一般都用Q4量化。不要用Q6,毫无意义。

                      油管:https://www.youtube.com/@抡锤者

                      怪物怪 1 条回复 最后回复
                      0
                      • terryT terry

                        @怪物 你搜下,你这个显存这么大,是不是有FP8的量化模型,如果有,那最适合你的卡,速度快,精度也够。我们一般都用Q4量化。不要用Q6,毫无意义。

                        怪物怪 在线
                        怪物怪 在线
                        怪物
                        发表于 最后由 编辑
                        #11

                        @terry
                        好的,是找QWEN3.6:35B-FP8
                        或是QWEN3.6:70B-FP8的模型嗎?
                        謝謝

                        terryT 1 条回复 最后回复
                        0
                        • 怪物怪 怪物

                          @terry
                          好的,是找QWEN3.6:35B-FP8
                          或是QWEN3.6:70B-FP8的模型嗎?
                          謝謝

                          terryT 离线
                          terryT 离线
                          terry
                          超级版主
                          发表于 最后由 编辑
                          #12

                          @怪物 你先不管其他的,先下载Qwen3.6 27b Q4KM,用llama.cpp把程序跑起来,这个模型很强大,精度也够,虽然有点配不上你显卡的算力,但是够用了。其它的暂时不要管,你连搜模型都不会,就不要折腾了。这个模型不会浪费你的时间,很强大。

                          油管:https://www.youtube.com/@抡锤者

                          怪物怪 1 条回复 最后回复
                          0
                          • terryT terry

                            @怪物 你先不管其他的,先下载Qwen3.6 27b Q4KM,用llama.cpp把程序跑起来,这个模型很强大,精度也够,虽然有点配不上你显卡的算力,但是够用了。其它的暂时不要管,你连搜模型都不会,就不要折腾了。这个模型不会浪费你的时间,很强大。

                            怪物怪 在线
                            怪物怪 在线
                            怪物
                            发表于 最后由 编辑
                            #13

                            @terry
                            好的,我來試試,謝謝

                            1 条回复 最后回复
                            0
                            • ? 离线
                              ? 离线
                              老用户
                              发表于 最后由 编辑
                              #14

                              直接上BF16精度,大小50多G,然后剩下的显存用来搞上下文之类的;你要有comfyui同时加载的需求就用FP8精度,你现在没有并发需求,comfyui和FP8模型都能一起塞进电脑。

                              1 条回复 最后回复
                              0
                              • 怪物怪 怪物

                                各位前輩大家好:
                                我是一個看不懂英文的電腦外行人,
                                看了版主的視頻後,剛從openclaw龍蝦改換到HERMES,
                                我的電腦是U9 285K CPU,192G DDR5記憶體,
                                NVIDIA RTX PRO™ 6000 Blackwell Max-Q Workstation Edition 96G顯示卡
                                現在安裝了本地版的hermes,用了qwen3-vl:32B跟qwen3.5:122B的模型
                                但是122B的模型無法讀取視訊,32B的模型雖然能讀取視訊,但回應都很簡略(有點笨),
                                我查了ChatGPT等AI然後下載了幾個qwen3.6的模型,但是hermes都不能正常使用,
                                想請問各位前輩,可以推薦幾個能讀取圖片跟視訊,而且能讓hernes使用的多模態模型,
                                有70B以上的,體積在80G以內的更好,
                                謝謝大家

                                J 离线
                                J 离线
                                johnnybegood
                                德高望重 劳动模范
                                发表于 最后由 编辑
                                #15

                                @怪物 122b 模型是safetensor还是GGUF? 同目录有没有放 mmproj 模型? 放了的话应该支持多模态的,没放肯定是不支持的

                                1 条回复 最后回复
                                0

                                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                有了你的建议,这篇帖子会更精彩哦 💗

                                注册 登录
                                回复
                                • 在新帖中回复
                                登录后回复
                                • 从旧到新
                                • 从新到旧
                                • 最多赞同


                                • 登录

                                • 没有帐号? 注册

                                • 第一个帖子
                                  最后一个帖子
                                0
                                • 版块
                                • 最新
                                • 标签
                                • 热门
                                • 用户
                                • 群组