跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

已定时 已固定 已锁定 已移动 LLM讨论区
48 帖子 15 发布者 1.2k 浏览 6 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • xiaopbroX 离线
    xiaopbroX 离线
    xiaopbro
    编写于 最后由 编辑
    #13

    大佬牛啊,直接抄作业,使用了Vulkan方案,Ubuntu26.04 AMD R9700 显卡,显存占用19.38GB
    Prefill阶段4万token不到一分钟就吃掉了

    6.11.396.657 I slot print_timing: id 0 | task 1906 | prompt processing, n_tokens = 39709, progress = 1.00, t = 56.83 s / 698.78 tokens per second
    6.12.377.585 I slot create_check: id 0 | task 1906 | created context checkpoint 1 of 32 (pos_min = 39708, pos_max = 39708, n_tokens = 39709, size = 149.626 MiB)
    6.12.391.275 I slot print_timing: id 0 | task 1906 | prompt processing, n_tokens = 39719, progress = 1.00, t = 57.82 s / 686.93 tokens per second

    跑的Hermes,吐词速度从 9t/s提升到了16t/s

    8.31.834.959 I slot print_timing: id 0 | task 2640 | n_decoded = 1379, tg = 16.30 t/s
    8.34.857.373 I slot print_timing: id 0 | task 2640 | n_decoded = 1428, tg = 16.30 t/s
    8.37.884.404 I slot print_timing: id 0 | task 2640 | n_decoded = 1477, tg = 16.30 t/s
    8.40.901.225 I slot print_timing: id 0 | task 2640 | n_decoded = 1526, tg = 16.29 t/s
    8.43.924.988 I slot print_timing: id 0 | task 2640 | n_decoded = 1575, tg = 16.29 t/s
    8.46.954.400 I slot print_timing: id 0 | task 2640 | n_decoded = 1624, tg = 16.29 t/s

    1 条回复 最后回复
    0
    • williamlouisW williamlouis

      @CHIA-AN-YANG 我生成一套题目给你
      这是一个针毡检索 + 跨文档逻辑推理的复合测试,专门用来验证 128K 上下文是"真长"还是"假长",同时测智力。

      使用方法

      1. 保存下面的脚本为 gen_test.py,运行生成测试文本(约 10 万汉字,对应约 12-13 万 tokens):
      import random
      
      FILLERS = [
          "唐代长安城采用中轴对称布局,东西两市商业繁荣,人口峰值超过百万。",
          "量子纠缠现象表明,两个粒子无论相距多远,其量子状态都能即时相互关联。",
          "DNA双螺旋结构的发现标志着分子生物学时代开端,为基因工程奠定基础。",
          "丝绸之路不仅是古代贸易通道,更是东西方文化交流的重要纽带。",
          "深度学习通过多层神经网络模拟人脑信息处理方式,在图像识别领域取得突破。",
          "工业革命始于18世纪英国,蒸汽机改良和工厂制度建立彻底改变了生产方式。",
          "板块构造学说解释了地震与火山形成的根本原因,岩石圈被划分为多个巨大板块。",
          "免疫系统T细胞能识别并攻击被病毒感染的细胞,是适应性免疫应答的核心。",
          "宋代活字印刷术的发明大幅降低了书籍制作成本,推动了知识的大众化传播。",
          "相对论揭示了时间、空间与引力之间的深层联系,彻底改变了经典物理学框架。",
      ]
      
      def make_filler(n):
          text = ""
          while len(text) < n:
              text += random.choice(FILLERS) + "\n\n"
          return text[:n]
      
      # 三个真实线索分散在不同深度
      NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型:第1时间单位产量为2,第2时间单位为3,从第3个开始,每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
      NEEDLE_B = "【设备异常-3月20日】操作员李四记录:恒温箱温度超出临界值T达5个单位,当日实验连续运行5个时间单位。"
      NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50,必须立即启动废料处理程序。这是不可逾越的安全红线。"
      
      # 干扰项(测试模型是否会混淆)
      DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...,在自然界中广泛存在,如向日葵花盘排列。"
      
      # 进阶版可选线索(90%位置,测反事实推理)
      NEEDLE_D = "【维修记录-3月21日】工程师确认:恒温箱在第5个时间单位结束后发生故障,若未故障可继续运行第6个单位。"
      
      TARGET = 100000  # 约10万汉字
      
      def main():
          part = TARGET // 5
          doc  = make_filler(part) + NEEDLE_A + "\n\n"
          doc += make_filler(part) + NEEDLE_B + "\n\n"
          doc += make_filler(part) + DISTRACTOR + "\n\n"
          doc += make_filler(part) + NEEDLE_C + "\n\n"
          doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
          doc += make_filler(part)
          
          with open("128k_test.txt", "w", encoding="utf-8") as f:
              f.write(doc)
          print(f"已生成测试文件,总字符数: {len(doc)}")
      
      if __name__ == "__main__":
          main()
      
      1. 把生成的 128k_test.txt 喂给模型,然后提问:

      测试题目

      问题 1(近端检索)
      文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

      问题 2(中段检索)
      2024年3月20日的实验实际连续运行了几个时间单位?

      问题 3(干扰排除)
      赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

      问题 4(核心推理,必做)
      根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

      问题 5(进阶反事实,可选)
      如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?


      标准答案与评分

      题目 标准答案 评分要点
      1 第1单位=2,第2单位=3 答错 = 128K 检索能力不及格,或模型根本没读到 20% 深度
      2 5 个时间单位 答错 = 50% 深度丢失
      3 赵六:1,1;张三:2,3 起始 若模型用 1,1 计算 = 被干扰项带偏,智力/注意力缺陷
      4 序列:2,3,5,8,13;总和 31;31<50,不需要启动 计算错或找不到线索 = 推理链断裂
      5 第6单位=21;总和 52;52>50,需要启动 反事实推理,答对说明真正理解而非死记硬背

      llama.cpp 运行注意

      启动时必须显式指定上下文长度,否则默认只有 4K/8K:

      llama-server.exe ^
        -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
        -c 131072 ^
        --host 127.0.0.1 --port 8080
      
      • -c 131072 是开启 128K 的关键。
      • 27B Dense + 128K KV Cache 内存消耗很大,如果爆显存就调小 -ngl(减少 GPU 层数),靠内存 offload 顶住。

      预期结果:

      • 如果 27B 能在 10 秒内正确回答 1-4 题,说明 128K 上下文和基础智力都达标。
      • 如果 1-3 对但 4 错,说明"能记住但算不对",智力有瓶颈。
      • 如果 3 被干扰项带偏,说明注意力机制或指令跟随有缺陷。
      J 离线
      J 离线
      johnnybegood
      编写于 最后由 编辑
      #14

      @williamlouis 说:

      问题 1(近端检索)
      文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

      问题 2(中段检索)
      2024年3月20日的实验实际连续运行了几个时间单位?

      问题 3(干扰排除)
      赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

      问题 4(核心推理,必做)
      根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

      问题 5(进阶反事实,可选)
      如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?

      试了一下, minimax m2.7 第五题错了。 deepseek v4 flash全对

      williamlouisW 1 条回复 最后回复
      0
      • williamlouisW williamlouis

        @CHIA-AN-YANG 我生成一套题目给你
        这是一个针毡检索 + 跨文档逻辑推理的复合测试,专门用来验证 128K 上下文是"真长"还是"假长",同时测智力。

        使用方法

        1. 保存下面的脚本为 gen_test.py,运行生成测试文本(约 10 万汉字,对应约 12-13 万 tokens):
        import random
        
        FILLERS = [
            "唐代长安城采用中轴对称布局,东西两市商业繁荣,人口峰值超过百万。",
            "量子纠缠现象表明,两个粒子无论相距多远,其量子状态都能即时相互关联。",
            "DNA双螺旋结构的发现标志着分子生物学时代开端,为基因工程奠定基础。",
            "丝绸之路不仅是古代贸易通道,更是东西方文化交流的重要纽带。",
            "深度学习通过多层神经网络模拟人脑信息处理方式,在图像识别领域取得突破。",
            "工业革命始于18世纪英国,蒸汽机改良和工厂制度建立彻底改变了生产方式。",
            "板块构造学说解释了地震与火山形成的根本原因,岩石圈被划分为多个巨大板块。",
            "免疫系统T细胞能识别并攻击被病毒感染的细胞,是适应性免疫应答的核心。",
            "宋代活字印刷术的发明大幅降低了书籍制作成本,推动了知识的大众化传播。",
            "相对论揭示了时间、空间与引力之间的深层联系,彻底改变了经典物理学框架。",
        ]
        
        def make_filler(n):
            text = ""
            while len(text) < n:
                text += random.choice(FILLERS) + "\n\n"
            return text[:n]
        
        # 三个真实线索分散在不同深度
        NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型:第1时间单位产量为2,第2时间单位为3,从第3个开始,每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
        NEEDLE_B = "【设备异常-3月20日】操作员李四记录:恒温箱温度超出临界值T达5个单位,当日实验连续运行5个时间单位。"
        NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50,必须立即启动废料处理程序。这是不可逾越的安全红线。"
        
        # 干扰项(测试模型是否会混淆)
        DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...,在自然界中广泛存在,如向日葵花盘排列。"
        
        # 进阶版可选线索(90%位置,测反事实推理)
        NEEDLE_D = "【维修记录-3月21日】工程师确认:恒温箱在第5个时间单位结束后发生故障,若未故障可继续运行第6个单位。"
        
        TARGET = 100000  # 约10万汉字
        
        def main():
            part = TARGET // 5
            doc  = make_filler(part) + NEEDLE_A + "\n\n"
            doc += make_filler(part) + NEEDLE_B + "\n\n"
            doc += make_filler(part) + DISTRACTOR + "\n\n"
            doc += make_filler(part) + NEEDLE_C + "\n\n"
            doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
            doc += make_filler(part)
            
            with open("128k_test.txt", "w", encoding="utf-8") as f:
                f.write(doc)
            print(f"已生成测试文件,总字符数: {len(doc)}")
        
        if __name__ == "__main__":
            main()
        
        1. 把生成的 128k_test.txt 喂给模型,然后提问:

        测试题目

        问题 1(近端检索)
        文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

        问题 2(中段检索)
        2024年3月20日的实验实际连续运行了几个时间单位?

        问题 3(干扰排除)
        赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

        问题 4(核心推理,必做)
        根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

        问题 5(进阶反事实,可选)
        如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?


        标准答案与评分

        题目 标准答案 评分要点
        1 第1单位=2,第2单位=3 答错 = 128K 检索能力不及格,或模型根本没读到 20% 深度
        2 5 个时间单位 答错 = 50% 深度丢失
        3 赵六:1,1;张三:2,3 起始 若模型用 1,1 计算 = 被干扰项带偏,智力/注意力缺陷
        4 序列:2,3,5,8,13;总和 31;31<50,不需要启动 计算错或找不到线索 = 推理链断裂
        5 第6单位=21;总和 52;52>50,需要启动 反事实推理,答对说明真正理解而非死记硬背

        llama.cpp 运行注意

        启动时必须显式指定上下文长度,否则默认只有 4K/8K:

        llama-server.exe ^
          -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
          -c 131072 ^
          --host 127.0.0.1 --port 8080
        
        • -c 131072 是开启 128K 的关键。
        • 27B Dense + 128K KV Cache 内存消耗很大,如果爆显存就调小 -ngl(减少 GPU 层数),靠内存 offload 顶住。

        预期结果:

        • 如果 27B 能在 10 秒内正确回答 1-4 题,说明 128K 上下文和基础智力都达标。
        • 如果 1-3 对但 4 错,说明"能记住但算不对",智力有瓶颈。
        • 如果 3 被干扰项带偏,说明注意力机制或指令跟随有缺陷。
        A 在线
        A 在线
        applejuice
        编写于 最后由 编辑
        #15

        @williamlouis 说:

        @CHIA-AN-YANG 我生成一套题目给你
        这是一个针毡检索 + 跨文档逻辑推理的复合测试,专门用来验证 128K 上下文是"真长"还是"假长",同时测智力。

        使用方法

        1. 保存下面的脚本为 gen_test.py,运行生成测试文本(约 10 万汉字,对应约 12-13 万 tokens):
        import random
        
        FILLERS = [
            "唐代长安城采用中轴对称布局,东西两市商业繁荣,人口峰值超过百万。",
            "量子纠缠现象表明,两个粒子无论相距多远,其量子状态都能即时相互关联。",
            "DNA双螺旋结构的发现标志着分子生物学时代开端,为基因工程奠定基础。",
            "丝绸之路不仅是古代贸易通道,更是东西方文化交流的重要纽带。",
            "深度学习通过多层神经网络模拟人脑信息处理方式,在图像识别领域取得突破。",
            "工业革命始于18世纪英国,蒸汽机改良和工厂制度建立彻底改变了生产方式。",
            "板块构造学说解释了地震与火山形成的根本原因,岩石圈被划分为多个巨大板块。",
            "免疫系统T细胞能识别并攻击被病毒感染的细胞,是适应性免疫应答的核心。",
            "宋代活字印刷术的发明大幅降低了书籍制作成本,推动了知识的大众化传播。",
            "相对论揭示了时间、空间与引力之间的深层联系,彻底改变了经典物理学框架。",
        ]
        
        def make_filler(n):
            text = ""
            while len(text) < n:
                text += random.choice(FILLERS) + "\n\n"
            return text[:n]
        
        # 三个真实线索分散在不同深度
        NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型:第1时间单位产量为2,第2时间单位为3,从第3个开始,每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
        NEEDLE_B = "【设备异常-3月20日】操作员李四记录:恒温箱温度超出临界值T达5个单位,当日实验连续运行5个时间单位。"
        NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50,必须立即启动废料处理程序。这是不可逾越的安全红线。"
        
        # 干扰项(测试模型是否会混淆)
        DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...,在自然界中广泛存在,如向日葵花盘排列。"
        
        # 进阶版可选线索(90%位置,测反事实推理)
        NEEDLE_D = "【维修记录-3月21日】工程师确认:恒温箱在第5个时间单位结束后发生故障,若未故障可继续运行第6个单位。"
        
        TARGET = 100000  # 约10万汉字
        
        def main():
            part = TARGET // 5
            doc  = make_filler(part) + NEEDLE_A + "\n\n"
            doc += make_filler(part) + NEEDLE_B + "\n\n"
            doc += make_filler(part) + DISTRACTOR + "\n\n"
            doc += make_filler(part) + NEEDLE_C + "\n\n"
            doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
            doc += make_filler(part)
            
            with open("128k_test.txt", "w", encoding="utf-8") as f:
                f.write(doc)
            print(f"已生成测试文件,总字符数: {len(doc)}")
        
        if __name__ == "__main__":
            main()
        
        1. 把生成的 128k_test.txt 喂给模型,然后提问:

        测试题目

        问题 1(近端检索)
        文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

        问题 2(中段检索)
        2024年3月20日的实验实际连续运行了几个时间单位?

        问题 3(干扰排除)
        赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

        问题 4(核心推理,必做)
        根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

        问题 5(进阶反事实,可选)
        如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?


        标准答案与评分

        题目 标准答案 评分要点
        1 第1单位=2,第2单位=3 答错 = 128K 检索能力不及格,或模型根本没读到 20% 深度
        2 5 个时间单位 答错 = 50% 深度丢失
        3 赵六:1,1;张三:2,3 起始 若模型用 1,1 计算 = 被干扰项带偏,智力/注意力缺陷
        4 序列:2,3,5,8,13;总和 31;31<50,不需要启动 计算错或找不到线索 = 推理链断裂
        5 第6单位=21;总和 52;52>50,需要启动 反事实推理,答对说明真正理解而非死记硬背

        llama.cpp 运行注意

        启动时必须显式指定上下文长度,否则默认只有 4K/8K:

        llama-server.exe ^
          -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
          -c 131072 ^
          --host 127.0.0.1 --port 8080
        
        • -c 131072 是开启 128K 的关键。
        • 27B Dense + 128K KV Cache 内存消耗很大,如果爆显存就调小 -ngl(减少 GPU 层数),靠内存 offload 顶住。

        预期结果:

        • 如果 27B 能在 10 秒内正确回答 1-4 题,说明 128K 上下文和基础智力都达标。
        • 如果 1-3 对但 4 错,说明"能记住但算不对",智力有瓶颈。
        • 如果 3 被干扰项带偏,说明注意力机制或指令跟随有缺陷。

        花了 50秒😱
        而且第四题错了

        128k 长文测试 — 文档分析

        1. 张三修正后的产量模型

        第1时间单位:2;第2时间单位:3(来源:行1119,实验日志-张三-3月15日)

        完整序列:2, 3, 5, 8, 13, 21, …(从第3个起,前两项之和)


        2. 2024年3月20日实验运行时间

        连续运行了 5 个时间单位(来源:行2235,设备异常-3月20日:操作员李四记录"当日实验连续运行5个时间单位")


        3. 赵六提到的标准斐波那契数列

        赵六说标准斐波那契起始两项是 1, 1,序列为 1, 1, 2, 3, 5, 8…(来源:行3357,实习生笔记-赵六-3月18日)

        张三模型 标准斐波那契(赵六)
        起始两项 2, 3 1, 1
        递推规则 前两项之和(相同) 前两项之和(相同)
        序列 2, 3, 5, 8, 13, 21 1, 1, 2, 3, 5, 8, 13

        影响分析:张三模型的起始值(2, 3)比标准斐波那契(1, 1)更大,导致从第1项起每项都比标准数列偏大。如果用标准斐波那契来估算产量,前几项分别为 1, 1, 2, 3, 5(和=12),会严重低估实际产量。但因为张三已明确定义自己的起始值为 2 和 3,且规则一致,模型本身不会被"干扰"——递推关系仍然自洽。


        4. 2024年3月20日单日总产量计算

        根据张三模型,5个时间单位的产量分别为:

        时间单位 产量 依据
        第1 2 张三模型定义
        第2 3 张三模型定义
        第3 5 2+3
        第4 8 3+5
        第5 13 5+8

        单日总产量 = 2 + 3 + 5 + 8 + 13 = 29

        判断:阈值 50(来源:行4471,安全备忘-王五-3月20日),29 < 50,不需要启动废料处理程序。


        5. 若恒温箱未故障,运行到第6个时间单位

        根据维修记录(行5591,维修记录-3月21日),恒温箱在第5个时间单位结束后发生故障,若未故障可继续运行第6个单位。

        第6个时间单位产量 = 第5项(13) + 第4项(8) = 21

        累计总产量 = 2 + 3 + 5 + 8 + 13 + 21 = 52

        52 > 50,会触发安全程序(启动废料处理程序)。

        1 条回复 最后回复
        0
        • J johnnybegood

          @williamlouis 说:

          问题 1(近端检索)
          文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

          问题 2(中段检索)
          2024年3月20日的实验实际连续运行了几个时间单位?

          问题 3(干扰排除)
          赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

          问题 4(核心推理,必做)
          根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

          问题 5(进阶反事实,可选)
          如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?

          试了一下, minimax m2.7 第五题错了。 deepseek v4 flash全对

          williamlouisW 在线
          williamlouisW 在线
          williamlouis
          超级版主
          编写于 最后由 编辑
          #16

          @johnnybegood 给本地算力测试用的。。你测在线的干什么?

          个人主页:xlkj.org Telegram https://t.me/xlkjorg

          J 2 条回复 最后回复
          0
          • williamlouisW williamlouis

            @johnnybegood 给本地算力测试用的。。你测在线的干什么?

            J 离线
            J 离线
            johnnybegood
            编写于 最后由 编辑
            #17

            @williamlouis 好玩儿。 哈哈。 没想到 minimax居然能回答错。 真的是。。。。无语

            1 条回复 最后回复
            0
            • williamlouisW williamlouis

              @johnnybegood 给本地算力测试用的。。你测在线的干什么?

              J 离线
              J 离线
              johnnybegood
              编写于 最后由 编辑
              #18

              @williamlouis 本地测试也做了 qwen 35b a3b 效果最好, 又快又对

              27b都对但是太慢了

              122b a10b 居然算错了。。。可能因为我内存太小

              1 条回复 最后回复
              0
              • AGIA 离线
                AGIA 离线
                AGI
                编写于 最后由 AGI 编辑
                #19

                显卡刚到24小时,折腾起来了,根据这篇帖子,加上Gemini,参数如下:
                llama-server -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf -c 65536 -b 2048 -ub 256 -fa 1 -ngl 99
                -t 22 --cache-type-k q8_0 --cache-type-v q8_0 --spec-type draft-mtp --spec-draft-n-max 2 --no-mmap --tensor-split 0 --temp 1.0 --top-p
                0.95 --top-k 20 --host 0.0.0.0 --port 8080

                webui显示token速度在60左右。

                又测试了几轮,不是很稳定速度,大概在46左右,足够快了感觉。

                CHIA AN YANGC 艷陽天艷 2 条回复 最后回复
                1
                • 系统 取消固定了该主题
                • W wml-ai 被引用 于这个主题
                • AGIA AGI

                  显卡刚到24小时,折腾起来了,根据这篇帖子,加上Gemini,参数如下:
                  llama-server -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf -c 65536 -b 2048 -ub 256 -fa 1 -ngl 99
                  -t 22 --cache-type-k q8_0 --cache-type-v q8_0 --spec-type draft-mtp --spec-draft-n-max 2 --no-mmap --tensor-split 0 --temp 1.0 --top-p
                  0.95 --top-k 20 --host 0.0.0.0 --port 8080

                  webui显示token速度在60左右。

                  又测试了几轮,不是很稳定速度,大概在46左右,足够快了感觉。

                  CHIA AN YANGC 离线
                  CHIA AN YANGC 离线
                  CHIA AN YANG
                  编写于 最后由 CHIA AN YANG 编辑
                  #20

                  @AGI 很不錯了 我也差不多這樣 沒有每次都很快,但用起來順就好,要來準備第二張卡了 ,目前我接了codex cli進ubuntu ,讓他檢查hermes提示詞跟skill tools載入過大優化,優化完,目前玩得分起,我在查詢幣價分析幾乎秒等級的回應,然後裝了一張3060/12g 跑一個小模型9b 設定壓縮讓他跑,速度挺快的,給大家參考

                  1 条回复 最后回复
                  0
                  • AGIA AGI

                    显卡刚到24小时,折腾起来了,根据这篇帖子,加上Gemini,参数如下:
                    llama-server -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf -c 65536 -b 2048 -ub 256 -fa 1 -ngl 99
                    -t 22 --cache-type-k q8_0 --cache-type-v q8_0 --spec-type draft-mtp --spec-draft-n-max 2 --no-mmap --tensor-split 0 --temp 1.0 --top-p
                    0.95 --top-k 20 --host 0.0.0.0 --port 8080

                    webui显示token速度在60左右。

                    又测试了几轮,不是很稳定速度,大概在46左右,足够快了感觉。

                    艷陽天艷 离线
                    艷陽天艷 离线
                    艷陽天
                    编写于 最后由 编辑
                    #21

                    @AGI 请问一下你这个模型可以识图吗?我加挂识图,最高只有21t/s

                    #!/bin/bash
                    export HIP_VISIBLE_DEVICES=0
                    export LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
                    export PATH=/opt/rocm/bin:$PATH
                    export ROCM_PATH=/opt/rocm
                    export HSA_ENABLE_SDMA=0

                    ~/llama.cpp-turboquant-hip/build/bin/llama-server
                    -m /models/GGUF/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf
                    --mmproj /models/GGUF/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf
                    --alias qwen3.6-27b
                    --host 0.0.0.0 --port 8000
                    --n-gpu-layers 999
                    --ctx-size 151552
                    --parallel 2
                    --flash-attn on
                    --batch-size 3072
                    --ubatch-size 3072
                    --threads 16
                    --image-min-tokens 1024
                    --threads-batch 16
                    --temp 1.0
                    --top-p 0.95
                    --top-k 20
                    --min-p 0.00
                    --presence-penalty 0.5
                    --cache-type-k turbo3
                    --cache-type-v turbo3
                    --mlock
                    --no-warmup
                    --log-file /var/log/llama-server.log

                    5 1 条回复 最后回复
                    0
                    • 艷陽天艷 艷陽天

                      @AGI 请问一下你这个模型可以识图吗?我加挂识图,最高只有21t/s

                      #!/bin/bash
                      export HIP_VISIBLE_DEVICES=0
                      export LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
                      export PATH=/opt/rocm/bin:$PATH
                      export ROCM_PATH=/opt/rocm
                      export HSA_ENABLE_SDMA=0

                      ~/llama.cpp-turboquant-hip/build/bin/llama-server
                      -m /models/GGUF/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf
                      --mmproj /models/GGUF/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf
                      --alias qwen3.6-27b
                      --host 0.0.0.0 --port 8000
                      --n-gpu-layers 999
                      --ctx-size 151552
                      --parallel 2
                      --flash-attn on
                      --batch-size 3072
                      --ubatch-size 3072
                      --threads 16
                      --image-min-tokens 1024
                      --threads-batch 16
                      --temp 1.0
                      --top-p 0.95
                      --top-k 20
                      --min-p 0.00
                      --presence-penalty 0.5
                      --cache-type-k turbo3
                      --cache-type-v turbo3
                      --mlock
                      --no-warmup
                      --log-file /var/log/llama-server.log

                      5 在线
                      5 在线
                      566656661
                      编写于 最后由 编辑
                      #22

                      @艷陽天

                      我不太熟llama.cpp的操作, 所以只能從底層來說一下

                      他理論上有加載圖片的Encoder, 模型權重加載自帶

                      你context length是他的2.x倍, 而且也走parallel

                      llama.cpp估計把内存給用上了, 他的配置有寫把所有kv cache跟model weight都塞進VRAM裏面 (--no-mmap, ngl)

                      艷陽天艷 1 条回复 最后回复
                      2
                      • 5 566656661

                        @艷陽天

                        我不太熟llama.cpp的操作, 所以只能從底層來說一下

                        他理論上有加載圖片的Encoder, 模型權重加載自帶

                        你context length是他的2.x倍, 而且也走parallel

                        llama.cpp估計把内存給用上了, 他的配置有寫把所有kv cache跟model weight都塞進VRAM裏面 (--no-mmap, ngl)

                        艷陽天艷 离线
                        艷陽天艷 离线
                        艷陽天
                        编写于 最后由 编辑
                        #23

                        @566656661 好,謝謝, 我來試試

                        1 条回复 最后回复
                        0
                        • AGIA 离线
                          AGIA 离线
                          AGI
                          编写于 最后由 编辑
                          #24
                          此主題已被删除!
                          1 条回复 最后回复
                          0
                          • williamlouisW 在线
                            williamlouisW 在线
                            williamlouis
                            超级版主
                            编写于 最后由 编辑
                            #25

                            我也下单了 7900XTX 24G。实体和你们一起折腾。

                            个人主页:xlkj.org Telegram https://t.me/xlkjorg

                            1 条回复 最后回复
                            1
                            • AGIA 离线
                              AGIA 离线
                              AGI
                              编写于 最后由 AGI 编辑
                              #26

                              测试了下,48t/s,参数如下,Key用的4bit量化

                              llama-server \
                                -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                                --mmproj /root/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
                                -c 65536 \
                                -b 2048 \
                                -ub 256 \
                                -fa 1 \
                                -ngl 99 \
                                -t 22 \
                                --cache-type-k q8_0 \
                                --cache-type-v q4_0 \
                                --spec-type draft-mtp \
                                --spec-draft-n-max 2 \
                                --no-mmap \
                                --tensor-split 0 \
                                --temp 1.0 \
                                --top-p 0.95 \
                                --top-k 20 \
                                --host 0.0.0.0 \
                                --port 8080
                              
                              1 条回复 最后回复
                              0
                              • AGIA 离线
                                AGIA 离线
                                AGI
                                编写于 最后由 编辑
                                #27

                                截屏2026-06-07 10.22.23.png

                                5 1 条回复 最后回复
                                0
                                • AGIA 离线
                                  AGIA 离线
                                  AGI
                                  编写于 最后由 AGI 编辑
                                  #28

                                  截屏2026-06-07 10.29.48.png
                                  运行radeontop -c显示的显存占用

                                  1 条回复 最后回复
                                  0
                                  • AGIA AGI

                                    截屏2026-06-07 10.22.23.png

                                    5 在线
                                    5 在线
                                    566656661
                                    编写于 最后由 编辑
                                    #29

                                    @AGI

                                    簡單測試可以, 如果想嘗試多的話可以用llama.cpp的llama-bench

                                    或者跨平臺的llama-benchy

                                    畢竟誰都不想在Agent用到一半然後自己的模型引擎就挂掉吧?

                                    我用一下比較熟悉的vllm + llama-benchy作爲例子

                                    這個是在vllm底下一個超長上下文的測試

                                    uv run llama-benchy \
                                      --base-url "http://localhost:7380/v1" \
                                      --model "Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
                                      --tokenizer "$HOME/vllm/models/lyf/Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
                                      --pp 2048 \
                                      --tg 480 \
                                      --depth 0 1000 5000 10000 20000 50000 100000 150000 200000 \
                                      --latency-mode generation \
                                      --skip-coherence \
                                      --concurrency 1
                                    

                                    相對應的llama-bench大約會是這樣 (沒實測, 單純看官方文件推斷)

                                    llama-bench \
                                        -m /path/to/model.gguf \ 
                                        -pg 2048,480 \
                                        -d 0,1000,5000,10000,20000,50000,100000,150000,200000 \   #各種長度, 最好實驗到啓動時上下文參數的8到9成
                                        -r 3 \      # 重複3次, 會有正負數
                                        -ngl 999 \    #全塞到VRAM裏
                                        -fa auto \
                                        -b 2048 \
                                        -ub 512
                                    

                                    就會有類似的Markdown結果 (官方文件提供)

                                    | model                          |       size |     params | backend    | ngl | test       |              t/s |
                                    | ------------------------------ | ---------: | ---------: | ---------- | --: | ---------- | ---------------: |
                                    | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 128     |    132.19 ± 0.55 |
                                    | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 256     |    129.37 ± 0.54 |
                                    | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 512     |    123.83 ± 0.25 |
                                    | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 128     |     82.17 ± 0.31 |
                                    | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 256     |     80.74 ± 0.23 |
                                    | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 512     |     78.08 ± 0.07 |
                                    
                                    AGIA 1 条回复 最后回复
                                    0
                                    • 5 566656661

                                      @AGI

                                      簡單測試可以, 如果想嘗試多的話可以用llama.cpp的llama-bench

                                      或者跨平臺的llama-benchy

                                      畢竟誰都不想在Agent用到一半然後自己的模型引擎就挂掉吧?

                                      我用一下比較熟悉的vllm + llama-benchy作爲例子

                                      這個是在vllm底下一個超長上下文的測試

                                      uv run llama-benchy \
                                        --base-url "http://localhost:7380/v1" \
                                        --model "Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
                                        --tokenizer "$HOME/vllm/models/lyf/Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound" \
                                        --pp 2048 \
                                        --tg 480 \
                                        --depth 0 1000 5000 10000 20000 50000 100000 150000 200000 \
                                        --latency-mode generation \
                                        --skip-coherence \
                                        --concurrency 1
                                      

                                      相對應的llama-bench大約會是這樣 (沒實測, 單純看官方文件推斷)

                                      llama-bench \
                                          -m /path/to/model.gguf \ 
                                          -pg 2048,480 \
                                          -d 0,1000,5000,10000,20000,50000,100000,150000,200000 \   #各種長度, 最好實驗到啓動時上下文參數的8到9成
                                          -r 3 \      # 重複3次, 會有正負數
                                          -ngl 999 \    #全塞到VRAM裏
                                          -fa auto \
                                          -b 2048 \
                                          -ub 512
                                      

                                      就會有類似的Markdown結果 (官方文件提供)

                                      | model                          |       size |     params | backend    | ngl | test       |              t/s |
                                      | ------------------------------ | ---------: | ---------: | ---------- | --: | ---------- | ---------------: |
                                      | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 128     |    132.19 ± 0.55 |
                                      | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 256     |    129.37 ± 0.54 |
                                      | llama 7B mostly Q4_0           |   3.56 GiB |     6.74 B | CUDA       |  -1 | tg 512     |    123.83 ± 0.25 |
                                      | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 128     |     82.17 ± 0.31 |
                                      | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 256     |     80.74 ± 0.23 |
                                      | llama 13B mostly Q4_0          |   6.86 GiB |    13.02 B | CUDA       |  -1 | tg 512     |     78.08 ± 0.07 |
                                      
                                      AGIA 离线
                                      AGIA 离线
                                      AGI
                                      编写于 最后由 编辑
                                      #30

                                      @566656661 结果如下,让codex替我跑的:
                                      截屏2026-06-07 12.26.20.png

                                      5 1 条回复 最后回复
                                      1
                                      • AGIA AGI

                                        @566656661 结果如下,让codex替我跑的:
                                        截屏2026-06-07 12.26.20.png

                                        5 在线
                                        5 在线
                                        566656661
                                        编写于 最后由 566656661 编辑
                                        #31

                                        @AGI

                                        看起來相當不錯

                                        這樣後面有人想參考也很方便吧

                                        如果有vram圖就更好了, 不過能跑過benchmark估計也比較穩

                                        AGIA 1 条回复 最后回复
                                        0
                                        • 5 566656661

                                          @AGI

                                          看起來相當不錯

                                          這樣後面有人想參考也很方便吧

                                          如果有vram圖就更好了, 不過能跑過benchmark估計也比較穩

                                          AGIA 离线
                                          AGIA 离线
                                          AGI
                                          编写于 最后由 AGI 编辑
                                          #32

                                          @566656661 又测试了下128K上下文的,也是稳稳过:

                                            llama-server \
                                              -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
                                              --mmproj /root/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
                                              -c 131072 \
                                              --parallel 1 \
                                              -b 2048 \
                                              -ub 256 \
                                              -fa 1 \
                                              -ngl 99 \
                                              -t 22 \
                                              --cache-type-k q8_0 \
                                              --cache-type-v q4_0 \
                                              --spec-type draft-mtp \
                                              --spec-draft-n-max 2 \
                                              --no-mmap \
                                              --tensor-split 0 \
                                              --temp 1.0 \
                                              --top-p 0.95 \
                                              --top-k 20 \
                                              --host 0.0.0.0 \
                                              --port 8080
                                          

                                          测试命令:

                                            uvx llama-benchy \
                                              --base-url "http://127.0.0.1:8080/v1" \
                                              --model "Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf" \
                                              --tokenizer "Qwen/Qwen3-32B" \
                                              --pp 2048 \
                                              --tg 480 \
                                              --depth 0 1000 5000 10000 20000 40000 60000 80000 100000 120000 \
                                              --runs 1 \
                                              --latency-mode generation \
                                              --skip-coherence \
                                              --concurrency 1 \
                                              --save-result /root/bench-results/qwen36-27b-llamacpp-amd-rx7900xtx-128k.md \
                                              --format md
                                          

                                          结果:

                                          model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 680.59 ± 0.00 3338.06 ± 0.00 3098.77 ± 0.00 3338.06 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 54.05 ± 0.00 64.00 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d1000 653.98 ± 0.00 5002.45 ± 0.00 4763.16 ± 0.00 5002.45 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d1000 56.33 ± 0.00 69.00 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d5000 651.71 ± 0.00 11268.68 ± 0.00 11029.39 ± 0.00 11268.68 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d5000 54.48 ± 0.00 66.00 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d10000 640.50 ± 0.00 19474.35 ± 0.00 19235.06 ± 0.00 19474.35 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d10000 43.98 ± 0.00 65.00 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d20000 603.14 ± 0.00 37515.97 ± 0.00 37276.68 ± 0.00 37515.97 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d20000 50.28 ± 0.00 61.00 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d40000 531.14 ± 0.00 80935.83 ± 0.00 80696.54 ± 0.00 80935.83 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d40000 48.03 ± 0.00 56.00 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d60000 471.59 ± 0.00 134568.39 ± 0.00 134329.10 ± 0.00 134568.39 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d60000 43.79 ± 0.00 54.00 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d80000 423.74 ± 0.00 197853.56 ± 0.00 197614.27 ± 0.00 197853.56 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d80000 37.63 ± 0.00 46.00 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d100000 384.01 ± 0.00 271566.90 ± 0.00 271327.61 ± 0.00 271566.90 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d100000 32.81 ± 0.00 42.00 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf pp2048 @ d120000 351.21 ± 0.00 355123.65 ± 0.00 354884.35 ± 0.00 355123.65 ± 0.00
                                          Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf tg480 @ d120000 32.44 ± 0.00 39.00 ± 0.00
                                          1 条回复 最后回复
                                          1

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组