跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

S

stxpnet

@stxpnet
关于
帖子
26
主题
2
分享
0
群组
0
粉丝
0
关注
1

帖子

最新 最佳 有争议的

  • 闲唠一下关于玩本地LLM和在线前沿模型。
    S stxpnet
       本地AI玩了快两个月了,某一刻:我突然发现,和LLM或者是HERMES聊天,或者是让LLM担任AGENT,用IDE让它跑编程任务,本质上是一个工程问题,也是一个人机协同,思维同步的问题。
       而不能像跟阿拉丁神灯许愿一样,期望模糊的打几个字。对面的AI就能像阿拉丁神灯一样,又快又好的回答你,或者瞬间帮你实现你要的结果。 
       能做到前者的,目前可能只有豆包,情绪价值拉满,但是可能答案和真实情况千差万别,能做到后者的,可能只有claude code 20X MAX套餐。
    
        能同时做到两者的,趁早洗洗睡,梦里面肯定有。
    

    不过落到实际的话,我目前努力的方向还是,怎样实现人机思维链的快速同步,目前给我感受最好的,也只有hermes了,目前策略是,开两个窗口,一个选 本地QWEN 3.6 27B,省TOKEN,智能思考。少于30字符的问题基本秒回(我有让它配置一个闲聊模式,不要发太重的SYSTEM PROMPT给LLM)。

    另一个窗口,连接DEEPSEEK PRO,有编程任务 ,或者是本地配置任务 ,我都在里面跑,上下文量大管饱,最近华为显卡跟上了,也不会卡顿了。
    不管哪个窗口,上下文满了,发送指令让它更新或总结记忆,然后/new重建session,接着爽聊。
    其实看看现在的在线聊天AI,KIMI,千问,智谱,豆包,gemini,他们一直也是有类似的设计,默认快速,手动可以 选深度思考或者联网,资本也在做成本的权衡。
    而我们有本地LLM条件的,可以自己想更多办法,工程化的去实现,从而不用受资本的压榨,又能将个人资料牢牢攥在自己 手中,免受绿泡泡倒卖资料给购物网站的困扰。

    如此,实现人机的协同,让HERMES真正成为个人的 数字孪生,让它将目前时代的两个红利,QWEN 3.6 27B本地与DEEPSEEK PRO(或者claude code) 。通过不断与HERMES交互,将时代红利,个人现实,牢牢绑定。减轻个人负担,创造更多价值!

    最后用清言的回答和HERMES的总结图,来结个贴:1c89bb76-4bd8-4ab1-8041-794326a2402e-image.jpeg

    e53e801b-00f9-4e1a-9c45-7f29b5fd7924-image.jpeg

    LLM讨论区

  • 3090 24G 跑QWEN 3.6 27B 152K上下文 KV(Q8_0) 55TOK/S 智能开关思考- 最终配置,再也不折腾了(还请大神指教)
    S stxpnet

    首先说一下背景,显卡是华硕3090 24G白(最高功率390W,日常限制最大功率330W),CPU I5 10600六核12线程,内存16G DDR4 X 4, 系统UBUNTU 24.04,电源1200W.
    原本我是想找一下 有没有哪个加载器可以将K V CACHE设置成TURBO QUANT3或4的,找了挺久也没有找到.还是老实抄作业+AI配置吧:

    综合了最近各种折腾,以及测试,最后来到这个配置, 主角: 请使用hf-mirror.com 搜索

    localweights/Qwen3.6-27B-MTP-IMAT-IQ4_XS-Q8nextn-GGUF
    

    94243b1e-91d0-4861-aca1-552f62557202-image.jpeg

    配角: 照着这个大神的配置,只下载它的repo, https://github.com/noonghunna/club-3090/blob/master/docs/SINGLE_CARD.md ,剩下 的让hermes + deepseek v4 pro自己跑配置就行了. (模型我喜欢自己在hf-mirror.com下载,然后告诉hermes路径) .

    智谱拆解的显存账本

    你的配置下(Qwen3.6-27B IQ4_XS-Q8nextn、168K 上下文、KV q8_0、MTP draft-mtp、3090 24G),显存的大头是:
    模型权重 ≈ 15.0–15.5 GB
    KV cache ≈ 5.5–6.5 GB(168K 上下文 + q8_0)
    MTP + 推理中间态 + 框架开销 ≈ 2–3 GB
    这三块加起来理论值约 22.5–24.5 GB,和你实际看到的 22.5–23.5 GB 是吻合的。
    

    该模型针对q8_0的cache类型做了优化,又有imatrix投影(虽然咱也不懂,但是感觉就是比没有imatrix的强一点,权重体积在15GB多一点,所以我将上下文配置为了168K,因为我要写一些程序,所以直接不加载视觉投影,而且这个模型的作者仓库也没有附带投影文件,如果需要视觉的坛友可能要另寻其它模型了.), 以下是yml文件里的配置:(从noonghunna仓库的配置稍微修改了几个参数)

     llama-cpp-qwen36-27b-localweight-iq4xs-q8n:
        image: ${IQ4NL_MTP_IMAGE:-ghcr.io/ggml-org/llama.cpp:server-cuda-b9246}
        container_name: "${ESTATE_CONTAINER:-llama-cpp-qwen36-27b-localweight-iq4xs-q8n}"
        restart: unless-stopped
        ports:
          - "${ESTATE_PORT:-${PORT:-8025}}:8080"
        volumes:
          - "${MODEL_DIR:-../../../../../../models-cache}:/models:ro"
        command: >-
          --host 0.0.0.0
          --port 8080
          -m /models/${GGUF_FILE:-qwen3.6-27b-gguf/Qwen3.6-27B-MTP-IMAT-IQ4_XS-Q8nextn.gguf}
          -c ${CTX_SIZE:-168000}
          -b ${BATCH_SIZE:-4096}
          -ub ${UBATCH_SIZE:-512}
          -ngl 99
          -fa on
          --metrics
          --cache-type-k ${KV_TYPE:-q8_0}
          --cache-type-v ${KV_TYPE:-q8_0}
          --kv-unified
          -np ${NP:-1}
          --spec-type draft-mtp
          --spec-draft-n-min ${MTP_DRAFT_N_MIN:-2}
          --spec-draft-n-max ${MTP_DRAFT_N_MAX:-3}
          --spec-draft-p-min ${MTP_DRAFT_P_MIN:-0.75}
          --reasoning-budget 3072
          --jinja
          --reasoning ${REASONING:-on}
          --reasoning-format ${REASONING_FORMAT:-deepseek}
          --temp ${TEMP:-${TEMPERATURE:-0.6}}
          --top-p ${TOP_P:-0.95}
          --top-k ${TOP_K:-20}
          --min-p ${MIN_P:-0.0}
          --repeat-penalty ${REPEAT_PENALTY:-1.0}
    

    b3f0d345-3108-47bb-afea-af3c2dff8fc4-image.jpeg
    最终直接测试,中国象棋HTML游戏,用trae跑了大概26分钟,修修补补,最后完成,基本能用(还没时间完整测试),但是走了10多步没有问题,各方面都是最近用过 的模型里面速度和质量最均衡了(其它模型经常缺胳膊少腿) .
    其它的,贪吃蛇HTML,俄罗斯方块HTML,五子棋HTML都是一次过. 坛子里那个针砧测试,70秒全部通过(思考了26秒).
    404701fa-97d1-430b-a1e9-3814cbfb447c-image.jpeg
    日常使用不会超过23.5G (另外有个问题,我的系统是UBUNTU24.04的,显示器插集成显卡上,开机总是要占用400多MB,我想了各种办法,问了各种AI,查了资料也解决不了) @xiaote,你能搞掂吗?

    21001803-e3a2-42cd-bb7f-9320cea354e2-image.jpeg
    小乔测试57秒,45 T/S. 提示词:(背一下三国演义里面小乔最经典的3个场景 ,想到什么就说什么。)
    另外今天发现一个可测AI历史知识的方法,就是问他炮车镇的来历,线上的AI知道炮车镇有曹操打吕布的典故,但是这个27BQ4模型是没有的,其它四大名著,唐诗三百首之类的它基本倒背如流.

    太阳系HTML测试,大概3分钟做好:
    ![12d81e06-5b8a-42c4-be86-ed1dc49f3251-image.jpeg]
    (https://upload.lcz.me/uploads/7d6f8c27-98d2-4635-ad5a-fcfda32ee0b1.jpeg)
    563ede97-faf8-4672-8090-8d452fe5553b-image.jpeg

    中国近20年来,评分最高,最值得看的关于人生和婚姻的电视剧,推荐10部,从高到低,并说明理由。
    起步55T/S, 思考了48秒, 中途思考的时候降到过48T/S
    9cb2e6a1-ed29-4f31-a194-e9852a6e1cc4-image.jpeg

    洗车等10个问题,56秒. 让智谱生成的评分标准 ,让它自己打分又花了46秒,得分85分
    9b2041d3-77c3-4e1b-a08b-b3af6943b47b-image.jpeg
    题8:得分[5]分,理由:数值答案正确(50%),但初次回答为简洁格式,未明确提及“独立事件”这一关键概率学理由,严格按评分规则得5分。
    题10:得分[0]分,理由:回答“走路去”忽略了“洗车”任务的物理约束,车无法步行前往,必须开车去,落入距离干扰陷阱。
    总分:[85]/100 .

    这个配置就不用折腾了,我可以投入生产了,这样用到QWEN 3.7新模型出来完全足够了.
    总体为说,这个模型就是 当年福建高考榜眼才子 林俊旸的杰作,我感觉它训练的时候27B有15B都在看各种文学经典吧,真正编程能力大概没占到一半,不知道他后面新开了AI公司还会不会继续搞开源模型继续造福大众.

    显卡平时空载温度35度左右,满载时57度左右(这几天 深圳室温应该是27度左右).

    LLM讨论区

  • 7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理
    S stxpnet

    e440b9c9-606d-4b67-8385-b09832cc2595-image.jpeg
    我目前自认为的最佳配置,3090 24G显卡,开了思考,思考预算是3072tokens,最大上下文配置为168K,通过了测试.我的K V CACHE都是Q8. 总用时70多秒.我觉得还行

    LLM讨论区

  • 3090 24G 跑QWEN 3.6 27B 152K上下文 KV(Q8_0) 55TOK/S 智能开关思考- 最终配置,再也不折腾了(还请大神指教)
    S stxpnet

    附:伟人诗词测试六首,提示词:<|think_off|>背一下伟人最出名的诗词,不准胡编乱造,背6首就可以了,中英对照的形式. 思考了55秒,总耗时82秒完成 .
    4b48c606-2704-40ab-80c5-77015a79c51c-image.jpeg
    附上中间的测试文件,以及trae写程序要用到的项目级agents.md,另外trae里面配置的输入上下文窗口是135K,输出窗口是30K,工具调用轮次是20轮.
    alltests.zip

    新测试:

    你是一个地理爱好者,用你的记忆,结合HTML技术,绘制出中国的大致形状,及各个省级行政区(包括各直辖市)的大致的形状和位置及它们的省会,点击省会的时候要出现省会的介绍(每个省会80-150字),鼠标经过省名时出现该省的简介(每个省80-150字)。保存为china0609aa.html,写完了之后再按需求,逐模块(或逐个代码块) 仔细审查代码,如果有问题要及时修复,确保90%功能OK了再交付给用户。
    

    3257e022-9f79-4767-ab0c-5e24a3097839-image.jpeg
    这个编程任务大概花了8分钟,最后出来是这样的,我觉得已经是一个Q4量化(未开启视觉)模型的极限了:
    80d5780f-0efd-480d-89cb-f7a39294d809-image.jpeg

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组