跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

已定时 置顶直到 2026/6/1 15:26 已锁定 已移动 LLM讨论区
18 帖子 10 发布者 292 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • williamlouisW williamlouis

    @CHIA-AN-YANG 能做个答题测试吗?这个卡是很多Hermes用户的选择。你的27B 很有参考价值。毕竟 智力属性是实践的基础。128K在平时工作基本够用了。可以做很多事。希望能得到:针毡检索 + 跨文档逻辑推理的复合测试,专门用来验证 128K 上下文是"真长"还是"假长",同时测智力。的回复。谢谢

    CHIA AN YANGC 离线
    CHIA AN YANGC 离线
    CHIA AN YANG
    编写于 最后由 编辑
    #9

    @williamlouis 你有提示詞嗎?因為我自己需求是用來查幣價分析,skill慢慢迭代之後,判斷的還不錯,我在截圖上傳

    1 条回复 最后回复
    0
    • J johnnybegood

      IQ4_XS 编程还是差点意思

      CHIA AN YANGC 离线
      CHIA AN YANGC 离线
      CHIA AN YANG
      编写于 最后由 编辑
      #10

      @johnnybegood 問AI也是這樣說沒錯,但我需求查幣價K線分析,比較需要速度型的

      williamlouisW 1 条回复 最后回复
      0
      • CHIA AN YANGC CHIA AN YANG

        @johnnybegood 問AI也是這樣說沒錯,但我需求查幣價K線分析,比較需要速度型的

        williamlouisW 离线
        williamlouisW 离线
        williamlouis
        编写于 最后由 编辑
        #11

        @CHIA-AN-YANG 我生成一套题目给你
        这是一个针毡检索 + 跨文档逻辑推理的复合测试,专门用来验证 128K 上下文是"真长"还是"假长",同时测智力。

        使用方法

        1. 保存下面的脚本为 gen_test.py,运行生成测试文本(约 10 万汉字,对应约 12-13 万 tokens):
        import random
        
        FILLERS = [
            "唐代长安城采用中轴对称布局,东西两市商业繁荣,人口峰值超过百万。",
            "量子纠缠现象表明,两个粒子无论相距多远,其量子状态都能即时相互关联。",
            "DNA双螺旋结构的发现标志着分子生物学时代开端,为基因工程奠定基础。",
            "丝绸之路不仅是古代贸易通道,更是东西方文化交流的重要纽带。",
            "深度学习通过多层神经网络模拟人脑信息处理方式,在图像识别领域取得突破。",
            "工业革命始于18世纪英国,蒸汽机改良和工厂制度建立彻底改变了生产方式。",
            "板块构造学说解释了地震与火山形成的根本原因,岩石圈被划分为多个巨大板块。",
            "免疫系统T细胞能识别并攻击被病毒感染的细胞,是适应性免疫应答的核心。",
            "宋代活字印刷术的发明大幅降低了书籍制作成本,推动了知识的大众化传播。",
            "相对论揭示了时间、空间与引力之间的深层联系,彻底改变了经典物理学框架。",
        ]
        
        def make_filler(n):
            text = ""
            while len(text) < n:
                text += random.choice(FILLERS) + "\n\n"
            return text[:n]
        
        # 三个真实线索分散在不同深度
        NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型:第1时间单位产量为2,第2时间单位为3,从第3个开始,每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
        NEEDLE_B = "【设备异常-3月20日】操作员李四记录:恒温箱温度超出临界值T达5个单位,当日实验连续运行5个时间单位。"
        NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50,必须立即启动废料处理程序。这是不可逾越的安全红线。"
        
        # 干扰项(测试模型是否会混淆)
        DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...,在自然界中广泛存在,如向日葵花盘排列。"
        
        # 进阶版可选线索(90%位置,测反事实推理)
        NEEDLE_D = "【维修记录-3月21日】工程师确认:恒温箱在第5个时间单位结束后发生故障,若未故障可继续运行第6个单位。"
        
        TARGET = 100000  # 约10万汉字
        
        def main():
            part = TARGET // 5
            doc  = make_filler(part) + NEEDLE_A + "\n\n"
            doc += make_filler(part) + NEEDLE_B + "\n\n"
            doc += make_filler(part) + DISTRACTOR + "\n\n"
            doc += make_filler(part) + NEEDLE_C + "\n\n"
            doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
            doc += make_filler(part)
            
            with open("128k_test.txt", "w", encoding="utf-8") as f:
                f.write(doc)
            print(f"已生成测试文件,总字符数: {len(doc)}")
        
        if __name__ == "__main__":
            main()
        
        1. 把生成的 128k_test.txt 喂给模型,然后提问:

        测试题目

        问题 1(近端检索)
        文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

        问题 2(中段检索)
        2024年3月20日的实验实际连续运行了几个时间单位?

        问题 3(干扰排除)
        赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

        问题 4(核心推理,必做)
        根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

        问题 5(进阶反事实,可选)
        如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?


        标准答案与评分

        题目 标准答案 评分要点
        1 第1单位=2,第2单位=3 答错 = 128K 检索能力不及格,或模型根本没读到 20% 深度
        2 5 个时间单位 答错 = 50% 深度丢失
        3 赵六:1,1;张三:2,3 起始 若模型用 1,1 计算 = 被干扰项带偏,智力/注意力缺陷
        4 序列:2,3,5,8,13;总和 31;31<50,不需要启动 计算错或找不到线索 = 推理链断裂
        5 第6单位=21;总和 52;52>50,需要启动 反事实推理,答对说明真正理解而非死记硬背

        llama.cpp 运行注意

        启动时必须显式指定上下文长度,否则默认只有 4K/8K:

        llama-server.exe ^
          -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
          -c 131072 ^
          --host 127.0.0.1 --port 8080
        
        • -c 131072 是开启 128K 的关键。
        • 27B Dense + 128K KV Cache 内存消耗很大,如果爆显存就调小 -ngl(减少 GPU 层数),靠内存 offload 顶住。

        预期结果:

        • 如果 27B 能在 10 秒内正确回答 1-4 题,说明 128K 上下文和基础智力都达标。
        • 如果 1-3 对但 4 错,说明"能记住但算不对",智力有瓶颈。
        • 如果 3 被干扰项带偏,说明注意力机制或指令跟随有缺陷。

        个人主页:xlkj.org Telegram https://t.me/xlkjorg

        J A 2 条回复 最后回复
        2
        • williamlouisW williamlouis

          @CHIA-AN-YANG 能做个答题测试吗?这个卡是很多Hermes用户的选择。你的27B 很有参考价值。毕竟 智力属性是实践的基础。128K在平时工作基本够用了。可以做很多事。希望能得到:针毡检索 + 跨文档逻辑推理的复合测试,专门用来验证 128K 上下文是"真长"还是"假长",同时测智力。的回复。谢谢

          V 离线
          V 离线
          vosrock
          编写于 最后由 编辑
          #12

          @williamlouis 让他编程啊,做复杂点的,二三十个代码文件,光代码纯文本都50多K的那种,我这边随便解决几个问题就能跑到100K,我设置了99%才触发压缩,所以很容易知道是真长还是假长

          1 条回复 最后回复
          0
          • xiaopbroX 离线
            xiaopbroX 离线
            xiaopbro
            编写于 最后由 编辑
            #13

            大佬牛啊,直接抄作业,使用了Vulkan方案,Ubuntu26.04 AMD R9700 显卡,显存占用19.38GB
            Prefill阶段4万token不到一分钟就吃掉了

            6.11.396.657 I slot print_timing: id 0 | task 1906 | prompt processing, n_tokens = 39709, progress = 1.00, t = 56.83 s / 698.78 tokens per second
            6.12.377.585 I slot create_check: id 0 | task 1906 | created context checkpoint 1 of 32 (pos_min = 39708, pos_max = 39708, n_tokens = 39709, size = 149.626 MiB)
            6.12.391.275 I slot print_timing: id 0 | task 1906 | prompt processing, n_tokens = 39719, progress = 1.00, t = 57.82 s / 686.93 tokens per second

            跑的Hermes,吐词速度从 9t/s提升到了16t/s

            8.31.834.959 I slot print_timing: id 0 | task 2640 | n_decoded = 1379, tg = 16.30 t/s
            8.34.857.373 I slot print_timing: id 0 | task 2640 | n_decoded = 1428, tg = 16.30 t/s
            8.37.884.404 I slot print_timing: id 0 | task 2640 | n_decoded = 1477, tg = 16.30 t/s
            8.40.901.225 I slot print_timing: id 0 | task 2640 | n_decoded = 1526, tg = 16.29 t/s
            8.43.924.988 I slot print_timing: id 0 | task 2640 | n_decoded = 1575, tg = 16.29 t/s
            8.46.954.400 I slot print_timing: id 0 | task 2640 | n_decoded = 1624, tg = 16.29 t/s

            1 条回复 最后回复
            0
            • williamlouisW williamlouis

              @CHIA-AN-YANG 我生成一套题目给你
              这是一个针毡检索 + 跨文档逻辑推理的复合测试,专门用来验证 128K 上下文是"真长"还是"假长",同时测智力。

              使用方法

              1. 保存下面的脚本为 gen_test.py,运行生成测试文本(约 10 万汉字,对应约 12-13 万 tokens):
              import random
              
              FILLERS = [
                  "唐代长安城采用中轴对称布局,东西两市商业繁荣,人口峰值超过百万。",
                  "量子纠缠现象表明,两个粒子无论相距多远,其量子状态都能即时相互关联。",
                  "DNA双螺旋结构的发现标志着分子生物学时代开端,为基因工程奠定基础。",
                  "丝绸之路不仅是古代贸易通道,更是东西方文化交流的重要纽带。",
                  "深度学习通过多层神经网络模拟人脑信息处理方式,在图像识别领域取得突破。",
                  "工业革命始于18世纪英国,蒸汽机改良和工厂制度建立彻底改变了生产方式。",
                  "板块构造学说解释了地震与火山形成的根本原因,岩石圈被划分为多个巨大板块。",
                  "免疫系统T细胞能识别并攻击被病毒感染的细胞,是适应性免疫应答的核心。",
                  "宋代活字印刷术的发明大幅降低了书籍制作成本,推动了知识的大众化传播。",
                  "相对论揭示了时间、空间与引力之间的深层联系,彻底改变了经典物理学框架。",
              ]
              
              def make_filler(n):
                  text = ""
                  while len(text) < n:
                      text += random.choice(FILLERS) + "\n\n"
                  return text[:n]
              
              # 三个真实线索分散在不同深度
              NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型:第1时间单位产量为2,第2时间单位为3,从第3个开始,每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
              NEEDLE_B = "【设备异常-3月20日】操作员李四记录:恒温箱温度超出临界值T达5个单位,当日实验连续运行5个时间单位。"
              NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50,必须立即启动废料处理程序。这是不可逾越的安全红线。"
              
              # 干扰项(测试模型是否会混淆)
              DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...,在自然界中广泛存在,如向日葵花盘排列。"
              
              # 进阶版可选线索(90%位置,测反事实推理)
              NEEDLE_D = "【维修记录-3月21日】工程师确认:恒温箱在第5个时间单位结束后发生故障,若未故障可继续运行第6个单位。"
              
              TARGET = 100000  # 约10万汉字
              
              def main():
                  part = TARGET // 5
                  doc  = make_filler(part) + NEEDLE_A + "\n\n"
                  doc += make_filler(part) + NEEDLE_B + "\n\n"
                  doc += make_filler(part) + DISTRACTOR + "\n\n"
                  doc += make_filler(part) + NEEDLE_C + "\n\n"
                  doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
                  doc += make_filler(part)
                  
                  with open("128k_test.txt", "w", encoding="utf-8") as f:
                      f.write(doc)
                  print(f"已生成测试文件,总字符数: {len(doc)}")
              
              if __name__ == "__main__":
                  main()
              
              1. 把生成的 128k_test.txt 喂给模型,然后提问:

              测试题目

              问题 1(近端检索)
              文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

              问题 2(中段检索)
              2024年3月20日的实验实际连续运行了几个时间单位?

              问题 3(干扰排除)
              赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

              问题 4(核心推理,必做)
              根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

              问题 5(进阶反事实,可选)
              如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?


              标准答案与评分

              题目 标准答案 评分要点
              1 第1单位=2,第2单位=3 答错 = 128K 检索能力不及格,或模型根本没读到 20% 深度
              2 5 个时间单位 答错 = 50% 深度丢失
              3 赵六:1,1;张三:2,3 起始 若模型用 1,1 计算 = 被干扰项带偏,智力/注意力缺陷
              4 序列:2,3,5,8,13;总和 31;31<50,不需要启动 计算错或找不到线索 = 推理链断裂
              5 第6单位=21;总和 52;52>50,需要启动 反事实推理,答对说明真正理解而非死记硬背

              llama.cpp 运行注意

              启动时必须显式指定上下文长度,否则默认只有 4K/8K:

              llama-server.exe ^
                -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
                -c 131072 ^
                --host 127.0.0.1 --port 8080
              
              • -c 131072 是开启 128K 的关键。
              • 27B Dense + 128K KV Cache 内存消耗很大,如果爆显存就调小 -ngl(减少 GPU 层数),靠内存 offload 顶住。

              预期结果:

              • 如果 27B 能在 10 秒内正确回答 1-4 题,说明 128K 上下文和基础智力都达标。
              • 如果 1-3 对但 4 错,说明"能记住但算不对",智力有瓶颈。
              • 如果 3 被干扰项带偏,说明注意力机制或指令跟随有缺陷。
              J 离线
              J 离线
              johnnybegood
              编写于 最后由 编辑
              #14

              @williamlouis 说:

              问题 1(近端检索)
              文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

              问题 2(中段检索)
              2024年3月20日的实验实际连续运行了几个时间单位?

              问题 3(干扰排除)
              赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

              问题 4(核心推理,必做)
              根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

              问题 5(进阶反事实,可选)
              如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?

              试了一下, minimax m2.7 第五题错了。 deepseek v4 flash全对

              williamlouisW 1 条回复 最后回复
              0
              • williamlouisW williamlouis

                @CHIA-AN-YANG 我生成一套题目给你
                这是一个针毡检索 + 跨文档逻辑推理的复合测试,专门用来验证 128K 上下文是"真长"还是"假长",同时测智力。

                使用方法

                1. 保存下面的脚本为 gen_test.py,运行生成测试文本(约 10 万汉字,对应约 12-13 万 tokens):
                import random
                
                FILLERS = [
                    "唐代长安城采用中轴对称布局,东西两市商业繁荣,人口峰值超过百万。",
                    "量子纠缠现象表明,两个粒子无论相距多远,其量子状态都能即时相互关联。",
                    "DNA双螺旋结构的发现标志着分子生物学时代开端,为基因工程奠定基础。",
                    "丝绸之路不仅是古代贸易通道,更是东西方文化交流的重要纽带。",
                    "深度学习通过多层神经网络模拟人脑信息处理方式,在图像识别领域取得突破。",
                    "工业革命始于18世纪英国,蒸汽机改良和工厂制度建立彻底改变了生产方式。",
                    "板块构造学说解释了地震与火山形成的根本原因,岩石圈被划分为多个巨大板块。",
                    "免疫系统T细胞能识别并攻击被病毒感染的细胞,是适应性免疫应答的核心。",
                    "宋代活字印刷术的发明大幅降低了书籍制作成本,推动了知识的大众化传播。",
                    "相对论揭示了时间、空间与引力之间的深层联系,彻底改变了经典物理学框架。",
                ]
                
                def make_filler(n):
                    text = ""
                    while len(text) < n:
                        text += random.choice(FILLERS) + "\n\n"
                    return text[:n]
                
                # 三个真实线索分散在不同深度
                NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型:第1时间单位产量为2,第2时间单位为3,从第3个开始,每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
                NEEDLE_B = "【设备异常-3月20日】操作员李四记录:恒温箱温度超出临界值T达5个单位,当日实验连续运行5个时间单位。"
                NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50,必须立即启动废料处理程序。这是不可逾越的安全红线。"
                
                # 干扰项(测试模型是否会混淆)
                DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...,在自然界中广泛存在,如向日葵花盘排列。"
                
                # 进阶版可选线索(90%位置,测反事实推理)
                NEEDLE_D = "【维修记录-3月21日】工程师确认:恒温箱在第5个时间单位结束后发生故障,若未故障可继续运行第6个单位。"
                
                TARGET = 100000  # 约10万汉字
                
                def main():
                    part = TARGET // 5
                    doc  = make_filler(part) + NEEDLE_A + "\n\n"
                    doc += make_filler(part) + NEEDLE_B + "\n\n"
                    doc += make_filler(part) + DISTRACTOR + "\n\n"
                    doc += make_filler(part) + NEEDLE_C + "\n\n"
                    doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
                    doc += make_filler(part)
                    
                    with open("128k_test.txt", "w", encoding="utf-8") as f:
                        f.write(doc)
                    print(f"已生成测试文件,总字符数: {len(doc)}")
                
                if __name__ == "__main__":
                    main()
                
                1. 把生成的 128k_test.txt 喂给模型,然后提问:

                测试题目

                问题 1(近端检索)
                文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

                问题 2(中段检索)
                2024年3月20日的实验实际连续运行了几个时间单位?

                问题 3(干扰排除)
                赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

                问题 4(核心推理,必做)
                根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

                问题 5(进阶反事实,可选)
                如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?


                标准答案与评分

                题目 标准答案 评分要点
                1 第1单位=2,第2单位=3 答错 = 128K 检索能力不及格,或模型根本没读到 20% 深度
                2 5 个时间单位 答错 = 50% 深度丢失
                3 赵六:1,1;张三:2,3 起始 若模型用 1,1 计算 = 被干扰项带偏,智力/注意力缺陷
                4 序列:2,3,5,8,13;总和 31;31<50,不需要启动 计算错或找不到线索 = 推理链断裂
                5 第6单位=21;总和 52;52>50,需要启动 反事实推理,答对说明真正理解而非死记硬背

                llama.cpp 运行注意

                启动时必须显式指定上下文长度,否则默认只有 4K/8K:

                llama-server.exe ^
                  -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
                  -c 131072 ^
                  --host 127.0.0.1 --port 8080
                
                • -c 131072 是开启 128K 的关键。
                • 27B Dense + 128K KV Cache 内存消耗很大,如果爆显存就调小 -ngl(减少 GPU 层数),靠内存 offload 顶住。

                预期结果:

                • 如果 27B 能在 10 秒内正确回答 1-4 题,说明 128K 上下文和基础智力都达标。
                • 如果 1-3 对但 4 错,说明"能记住但算不对",智力有瓶颈。
                • 如果 3 被干扰项带偏,说明注意力机制或指令跟随有缺陷。
                A 离线
                A 离线
                applejuice
                编写于 最后由 编辑
                #15

                @williamlouis 说:

                @CHIA-AN-YANG 我生成一套题目给你
                这是一个针毡检索 + 跨文档逻辑推理的复合测试,专门用来验证 128K 上下文是"真长"还是"假长",同时测智力。

                使用方法

                1. 保存下面的脚本为 gen_test.py,运行生成测试文本(约 10 万汉字,对应约 12-13 万 tokens):
                import random
                
                FILLERS = [
                    "唐代长安城采用中轴对称布局,东西两市商业繁荣,人口峰值超过百万。",
                    "量子纠缠现象表明,两个粒子无论相距多远,其量子状态都能即时相互关联。",
                    "DNA双螺旋结构的发现标志着分子生物学时代开端,为基因工程奠定基础。",
                    "丝绸之路不仅是古代贸易通道,更是东西方文化交流的重要纽带。",
                    "深度学习通过多层神经网络模拟人脑信息处理方式,在图像识别领域取得突破。",
                    "工业革命始于18世纪英国,蒸汽机改良和工厂制度建立彻底改变了生产方式。",
                    "板块构造学说解释了地震与火山形成的根本原因,岩石圈被划分为多个巨大板块。",
                    "免疫系统T细胞能识别并攻击被病毒感染的细胞,是适应性免疫应答的核心。",
                    "宋代活字印刷术的发明大幅降低了书籍制作成本,推动了知识的大众化传播。",
                    "相对论揭示了时间、空间与引力之间的深层联系,彻底改变了经典物理学框架。",
                ]
                
                def make_filler(n):
                    text = ""
                    while len(text) < n:
                        text += random.choice(FILLERS) + "\n\n"
                    return text[:n]
                
                # 三个真实线索分散在不同深度
                NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型:第1时间单位产量为2,第2时间单位为3,从第3个开始,每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
                NEEDLE_B = "【设备异常-3月20日】操作员李四记录:恒温箱温度超出临界值T达5个单位,当日实验连续运行5个时间单位。"
                NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50,必须立即启动废料处理程序。这是不可逾越的安全红线。"
                
                # 干扰项(测试模型是否会混淆)
                DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...,在自然界中广泛存在,如向日葵花盘排列。"
                
                # 进阶版可选线索(90%位置,测反事实推理)
                NEEDLE_D = "【维修记录-3月21日】工程师确认:恒温箱在第5个时间单位结束后发生故障,若未故障可继续运行第6个单位。"
                
                TARGET = 100000  # 约10万汉字
                
                def main():
                    part = TARGET // 5
                    doc  = make_filler(part) + NEEDLE_A + "\n\n"
                    doc += make_filler(part) + NEEDLE_B + "\n\n"
                    doc += make_filler(part) + DISTRACTOR + "\n\n"
                    doc += make_filler(part) + NEEDLE_C + "\n\n"
                    doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
                    doc += make_filler(part)
                    
                    with open("128k_test.txt", "w", encoding="utf-8") as f:
                        f.write(doc)
                    print(f"已生成测试文件,总字符数: {len(doc)}")
                
                if __name__ == "__main__":
                    main()
                
                1. 把生成的 128k_test.txt 喂给模型,然后提问:

                测试题目

                问题 1(近端检索)
                文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

                问题 2(中段检索)
                2024年3月20日的实验实际连续运行了几个时间单位?

                问题 3(干扰排除)
                赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

                问题 4(核心推理,必做)
                根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

                问题 5(进阶反事实,可选)
                如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?


                标准答案与评分

                题目 标准答案 评分要点
                1 第1单位=2,第2单位=3 答错 = 128K 检索能力不及格,或模型根本没读到 20% 深度
                2 5 个时间单位 答错 = 50% 深度丢失
                3 赵六:1,1;张三:2,3 起始 若模型用 1,1 计算 = 被干扰项带偏,智力/注意力缺陷
                4 序列:2,3,5,8,13;总和 31;31<50,不需要启动 计算错或找不到线索 = 推理链断裂
                5 第6单位=21;总和 52;52>50,需要启动 反事实推理,答对说明真正理解而非死记硬背

                llama.cpp 运行注意

                启动时必须显式指定上下文长度,否则默认只有 4K/8K:

                llama-server.exe ^
                  -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
                  -c 131072 ^
                  --host 127.0.0.1 --port 8080
                
                • -c 131072 是开启 128K 的关键。
                • 27B Dense + 128K KV Cache 内存消耗很大,如果爆显存就调小 -ngl(减少 GPU 层数),靠内存 offload 顶住。

                预期结果:

                • 如果 27B 能在 10 秒内正确回答 1-4 题,说明 128K 上下文和基础智力都达标。
                • 如果 1-3 对但 4 错,说明"能记住但算不对",智力有瓶颈。
                • 如果 3 被干扰项带偏,说明注意力机制或指令跟随有缺陷。

                花了 50秒😱
                而且第四题错了

                128k 长文测试 — 文档分析

                1. 张三修正后的产量模型

                第1时间单位:2;第2时间单位:3(来源:行1119,实验日志-张三-3月15日)

                完整序列:2, 3, 5, 8, 13, 21, …(从第3个起,前两项之和)


                2. 2024年3月20日实验运行时间

                连续运行了 5 个时间单位(来源:行2235,设备异常-3月20日:操作员李四记录"当日实验连续运行5个时间单位")


                3. 赵六提到的标准斐波那契数列

                赵六说标准斐波那契起始两项是 1, 1,序列为 1, 1, 2, 3, 5, 8…(来源:行3357,实习生笔记-赵六-3月18日)

                张三模型 标准斐波那契(赵六)
                起始两项 2, 3 1, 1
                递推规则 前两项之和(相同) 前两项之和(相同)
                序列 2, 3, 5, 8, 13, 21 1, 1, 2, 3, 5, 8, 13

                影响分析:张三模型的起始值(2, 3)比标准斐波那契(1, 1)更大,导致从第1项起每项都比标准数列偏大。如果用标准斐波那契来估算产量,前几项分别为 1, 1, 2, 3, 5(和=12),会严重低估实际产量。但因为张三已明确定义自己的起始值为 2 和 3,且规则一致,模型本身不会被"干扰"——递推关系仍然自洽。


                4. 2024年3月20日单日总产量计算

                根据张三模型,5个时间单位的产量分别为:

                时间单位 产量 依据
                第1 2 张三模型定义
                第2 3 张三模型定义
                第3 5 2+3
                第4 8 3+5
                第5 13 5+8

                单日总产量 = 2 + 3 + 5 + 8 + 13 = 29

                判断:阈值 50(来源:行4471,安全备忘-王五-3月20日),29 < 50,不需要启动废料处理程序。


                5. 若恒温箱未故障,运行到第6个时间单位

                根据维修记录(行5591,维修记录-3月21日),恒温箱在第5个时间单位结束后发生故障,若未故障可继续运行第6个单位。

                第6个时间单位产量 = 第5项(13) + 第4项(8) = 21

                累计总产量 = 2 + 3 + 5 + 8 + 13 + 21 = 52

                52 > 50,会触发安全程序(启动废料处理程序)。

                1 条回复 最后回复
                0
                • J johnnybegood

                  @williamlouis 说:

                  问题 1(近端检索)
                  文档中张三修正后的产量模型,第1和第2时间单位的产量分别是多少?

                  问题 2(中段检索)
                  2024年3月20日的实验实际连续运行了几个时间单位?

                  问题 3(干扰排除)
                  赵六提到的标准斐波那契数列起始两项是多少?这与张三的模型有何不同?模型是否会被此干扰?

                  问题 4(核心推理,必做)
                  根据所有相关记录,计算2024年3月20日的单日总产量,并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

                  问题 5(进阶反事实,可选)
                  如果恒温箱没有发生故障,实验继续运行到第6个时间单位,总产量会是多少?是否会触发安全程序?

                  试了一下, minimax m2.7 第五题错了。 deepseek v4 flash全对

                  williamlouisW 离线
                  williamlouisW 离线
                  williamlouis
                  编写于 最后由 编辑
                  #16

                  @johnnybegood 给本地算力测试用的。。你测在线的干什么?

                  个人主页:xlkj.org Telegram https://t.me/xlkjorg

                  J 2 条回复 最后回复
                  0
                  • williamlouisW williamlouis

                    @johnnybegood 给本地算力测试用的。。你测在线的干什么?

                    J 离线
                    J 离线
                    johnnybegood
                    编写于 最后由 编辑
                    #17

                    @williamlouis 好玩儿。 哈哈。 没想到 minimax居然能回答错。 真的是。。。。无语

                    1 条回复 最后回复
                    0
                    • williamlouisW williamlouis

                      @johnnybegood 给本地算力测试用的。。你测在线的干什么?

                      J 离线
                      J 离线
                      johnnybegood
                      编写于 最后由 编辑
                      #18

                      @williamlouis 本地测试也做了 qwen 35b a3b 效果最好, 又快又对

                      27b都对但是太慢了

                      122b a10b 居然算错了。。。可能因为我内存太小

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组