抡锤者

Tony Wang

交个作业。

我的机器是 M5 Pro 64GB（18 CPU + 20 GPU），测试了几个 runtime：Ollama、LM Studio 和 MTPLX。
模型主要是 Qwen3.6 27B 和 Qwen3.6 35B-A3B，均为 Q4 量化。

先说结论：

35B-A3B 在 MLX runtime（LM Studio）下，64K 上下文仍能跑到 50+ tok/s，已经达到可用状态，但智力相比 dense 27B 还是略弱一些。
27B dense 在 MLX + MTP（MTPLX）下，64K 上下文能跑到 19+ tok/s, 提升巨大, 但仍然只是勉强可用.
MTPLX 在 64K 下的 speculative decoding 命中率依然很高，更长上下文不知道.
Μ5 max 内存带宽可以达到pro的两倍, 如果MTPLX的生态成熟了, 感觉27b的LLM可用.

35b测试结果:

27b测试结果:

说明:
1, 4k, 8K 上下文测试没有意义, 所以大家关注16K以上的结果就好.
2, Mac 环境很难搞干净, 我的MBP是主力机, 里面各种服务软件很多. 所以不能作为基准, 但是相互的比较还是有意义的.
3, vMLX 之前测试过, 很不稳定, 所以算了.
4, oMLX 看网上讲性能和LM Studio差不多, 所以也没测.

Tony Wang

@909

你100个左右的文档, 大概是多少文字?

我个人觉得，你这个场景不适合完全依赖长上下文 LLM。

假设文档总量大约100K token , 全部塞入模型. 即使是 32B 模型，Q4 量化模型本体也要占用约 20GB 显存，100K 上下文的 KV Cache, Q8量化后, 还要再占用 10GB 左右。再加上运行开销，基本就需要 32GB 甚至更大的显卡了，1 万预算很难办到。

我觉得更合理的方案还是做好 RAG：

文档切片 + Hybrid Search + 高质量 Rerank + 14B 模型 , 大概率就够用了.

这种情况下, 一张16G或者24GB 显卡应该都可以满足要求, 1万元的预算肯定可以搞定.

你首要任务是先解决回答效果的问题, 把 RAG 流程先调好；等效果满意了. 再考虑速度和硬件升级。

Tony Wang

被老特点名了. 我提议建立一个RAG类的应用专区, 但是自己却又不分享.

不是我不想, 是老夫做不到啊.

不过还是给大家分享一下我的需求和尝试, 也算是抛砖引玉, 一是希望能得到大神的提点, 二是也希望能给大家一点儿启发.

背景

我喜欢历史, 哲学, 国学, 用 Obsidian 5年多了, 积累了大约5000多篇各种笔记, 随笔, 以及自己写的一些小文章等. 之前在 evernote, onenote, 网易云笔记, notion等中, 也有一些笔记的积累.
我平时喜欢留痕, 有20多年的个人, 家庭, 工作等文件的积累, 包括 word, ppt, email, 以及经过ocr的pdf等等.

需求

我希望对自己的笔记, 随笔等等进行智能的检索, 分析, 提炼. 帮助我更多地思考和 output, 目前主要是文章, 将来也想学习通过视频, 数字人等进行 output.
我希望能对自己的生活和工作文件, 进行智能的检索和提炼, 比如我最近在申请美国签证, 我需要填写一个叫作 DS160的表格, 这个表格我从20多年前就填写过, 填写过好多次. 我如何快速找到它们, 提取其中的内容, 保持一致性? ( 因为如果内容不一致, 有可能会带来签证官的疑问)
类似这样的需求还有很多. 这些内容一是数量太大, 无法上传到云端处理, 二是其中有很多隐私, 如财务, 法律文件等.
从20多年前我就在找解决方案. 包括google desktop, spotlight, Alfred, Raycast ... 这些传统的全文搜索, 都无法满足我的需求.

初步折腾 RAG

Obsidian中, 我一开始用 smart connections, 后来用copilot, 但一直调整不好, 现在只能暂时用 llm-wiki.
文件系统中, 我在ChatGPT和Claude的帮助下, 用脚本做了一个本地RAG系统: 先OCR, whisper提炼字幕, 改长文件名; 然后切片, rerank; 最后用qwen 27b (大部分时候用35A3), 进行搜索, 对话, 提炼, 总结分析等.
切片的参数, embedding 模型, rerank 方法, 关键词+向量数据库的混合, 都进行了一些尝试.
效果始终不好. 一是相关性和准确率偏低, 二是有很多幻觉现象, 幸亏我对自己积累的内容比较了解, 否则真会被骗.
前几天跟老特聊, 才知道 Lora 也能应用在RAG中, 打算稍后继续折腾一下.

对个人知识库和本地知识库的AI化判断.

long context llm 能够准确地分析总结, 但是效率和经济性很差, 这是无法避免的硬伤.
大体量数据库(还远远称不上海量), 是无法单独通过 long context llm 来解决的. 必须得想办法切片, 控制上下文长度后进行分析.
切片的方法, 可以是多种方式的混合, 比如语义向量, 上下文的总结压缩, 滑动或者滚动内容窗口等.

总结

以上是我个人的一些折腾总结, 希望大神们多多指点.
最近在忙着搬家的事情, 所以这个总结也没有精力整理太多的细节,
估计还要有2个多月才能空闲下来, 到时候会投入更多的精力. 补充细节和继续折腾.

Tony Wang

@lz007

我女儿上大一, 学数学哲学, 我给她配了一台 MBP M5 pro 64G的, 她自己还订阅了 Claude, 主要用来编程.

我自己也用同样的MBP做主力机, 另外打算配一台N卡的Linux.

Tony Wang

@kos-or

所有的模型都有知识库的截止时间.

你直接告诉hermes说你的内容过期了, 去找相关领域的cli, rss源等, 它会自己建立skill.

本地的35A3的知识面和智力足够告诉Hermes应该怎么去搜索, 寻找了. 实在不成, 自己告诉hermes去哪里找准确的信息源, 最好是cli, rss的, 减少噪音. 然后它自己就能建立这个skill.

Tony Wang

硬件, 软件, 网络, AI 都在飞速发展, 世界已经发生了天翻地覆的变化, 过去的经验基本都用不上了, 也就只能怀怀旧 . 当年攒机时候, CPU还有Cyrix和Ti, 显卡还有 ATI和S3, 还有voodoo, 当年吊打nvidia, 跑极品飞车的雨雾效果只有voodoo才能渲染出来. 操作系统当年只有 slackware, 后来才有红帽... 当时跑web还要用apache +cgi, 后来还有NT的IIS, 浏览器只能用lynx 和mosaic... 现在这些经验, 基本上一点儿用都没有了

Tony Wang

老黄显然不满足 GB10 只在极客圈子和生产力圈子里使用.

GB10其是在 LLM 和 AI生图, 生视频方面都具备了基本可用的素质, 在这个意义上来说, 性价比还不错.

问题在于它的生态很差, AI方面的生态差, 应用方面的生态更差. 所以只能是极客圈子和生产力圈子才会用, 而生产力圈子要转向NVIDIA 的专属linux, 要有巨大的市场教育成本.

所以这个新品, 和windows结合, 使用游戏本的形态, 可能会帮助它拓展使用人群. 尤其是和windows的结合.

从这个角度上来讲, 可以对视频生产有一定期待, 毕竟显存够大, 慢就慢点儿, 但是一致性会好很多.

Tony Wang

@jack-mao 说:

@九龙杨生不算显卡，5.4w。

你的使用场景是什么? 另外配置还是没说清楚.

似乎是 7975Wx, 64G内存, 2T固态. 这颗CPU的TDP就要350W. 你打算上两张显卡, 1000W电源不够.

如果是跑LLM 和 ComfyUI, CPU过强, 内存不够, ECC不一定需要.

5.4W要看怎么比, 如果各个部件都是高性能, 好品牌的话, 性价比可能还凑合. 如果有用不到的部分, 或者不够用的部分, 那就完全谈不上性价比了.

Tony Wang

@terry 建议开个 "老头乐" 版块吧, 让大家忆忆旧, 吹吹牛.

Tony Wang

看了一下, 这个和是否付费的版本无关, ngix 都有这个漏洞, 只是rewrite规则可能付费版本写得更加正规, 触发不了这个漏洞.

这个攻击和2000初期的apache chunk溢出非常类似. 所以任何对公众的服务, 尽量要用 nobody+noshell+隔离架构(docer或虚拟化) 来运行. 这样黑客只能盲操做, 安全性好很多.

Tony Wang

你亲眼面对这种大型现代工业艺术品的时候, 往往会感到震撼.

我第一次看到好几个全尺寸机柜的modem池并排在一起的时候, 也是被震撼到了, 那些无数闪烁的led后面, 是一个个真实的用户在连接互联网.

现在, 面对这个LLM大家伙,除了震撼, 我估计还会有点儿脊背发凉... 你怎么知道这会不会就是天网的开端?

Tony Wang

可喜可贺 @566656661

Tony Wang

我也建议要冷静. 方案一尤其不可, M3 urltra 买了要12-14周才能到货.

新的Mac Studio没准6月 WWDC 就出来了, 现在买M3, 和49年参加国军差不多.

Tony Wang

在特老大的感召下, 论坛中的大神越来越多, 各个分享帖子真是眼花缭乱. 令人不由 Orz.

不过, 模型选择, 启动参数, 模型调优, 测试结果等等, 由于模型众多, 方法众多, 框架众多, 测试方法多样, 直接记录流水账的话, 可读性很差.

所以建议大家, 既然是经验分享, 最好结论先行. 在最开头加一段总结或者结论. 这样一目了然, 读者可以迅速进入. 再详细研读.

Tony Wang

@566656661
大家一起折腾, 共同进步.

Tony Wang

劳动模范...

期待你之后的对比.

BGE对中文支持也不错的

Tony Wang

多分享实战经验和技术的朋友, 自然也能积累口碑和信誉, 这对大家的生意也是个好的促进.

不要简单粗暴地招揽生意.

Tony Wang

申请版主，愿意为大家服务，水平有限，但比较热心

抡锤者

Tony Wang

帖子

背景

需求

初步折腾 RAG

对个人知识库和本地知识库的AI化判断.

总结