抡锤者

Tony Wang

感觉带宽低了点儿.

Tony Wang

@magician6677 说:

要是论坛出个app就方便了。随时手机端就浏览了。加油

网站的手机适配, 起码 chrome 还是不错的.

Tony Wang

@jack-mao 说:

@九龙杨生不算显卡，5.4w。

你的使用场景是什么? 另外配置还是没说清楚.

似乎是 7975Wx, 64G内存, 2T固态. 这颗CPU的TDP就要350W. 你打算上两张显卡, 1000W电源不够.

如果是跑LLM 和 ComfyUI, CPU过强, 内存不够, ECC不一定需要.

5.4W要看怎么比, 如果各个部件都是高性能, 好品牌的话, 性价比可能还凑合. 如果有用不到的部分, 或者不够用的部分, 那就完全谈不上性价比了.

Tony Wang

真是不错的配置有点儿遗憾.

不过如果确实用不到, 留着不如出掉.

Tony Wang

生命不息，折腾不止

Tony Wang

可喜可贺 @566656661

Tony Wang

劳动模范...

期待你之后的对比.

BGE对中文支持也不错的

Tony Wang

@abaalei

如下是我个人使用的比较顺手的, 其中有些是一次性收费的.

第一档:

CotEditor notepad的平替, mac自带的太差
Raycast 搜索, 快捷键等, 平替Alfred, 现在windows上也有了.
IINA 视频播放器
QLMarkdown 支持.md的预览, 以及轻量级编辑
Magnet 窗口管理工具, Mac现在自己也带类似功能, 但这个我用熟了
Take a Break 定时锁屏, 休息眼睛

第二挡:

Keka 解压压缩工具
Permute 3 音视频格式转换工具
Transmission bt, magnet下载
XnviewMP 看图, 图片管理
NTFS for Mac 支持NTFS系统
Drawthings 类似ComfyUI, 简单, 可以玩玩

再有就是常用的, windows平台也有的:

Obsidian
Calibre
Trello
...

Tony Wang

@mark

我其实对个人知识库(或者说个人知识图谱) 是非常感兴趣的. 但我没有什么开发能力.

所以期待大神能有更多地探索和分享.

Tony Wang

我理解了，你这套系统已经做得很完善了。我觉得还可以继续往通用性方向拓展一些。

比如，Rule 是人工配置的，还是 AI 也能够协助生成或维护？

再比如，语义相关性的处理。像 “美签”、“美国签证”、“美国学生签”、“美国工签” 这些词，我觉得 Embedding 这种语义检索会比较容易命中。而传统关键词搜索，可能还需要配置同义词规则，或者结合一些语义相关性的搜索策略。

另外, 就是整篇文档召回, 我觉得会有浪费显存的状况.

我个人还是觉得，不同的检索方式各有优缺点，最终更可能还是一种混合策略。

Tony Wang

吃了垃圾,发给LLM ,吐出来垃圾.

这句话极其赞同. 但整个结论我不能完全同意.

我现在也在用LLM Wiki, 配合我的Obsidian一起工作, 效果非常好. 但是前提是我一样要给它高质量的内容. 而且它比较适合做专题的分析.

我不知道你具体用什么方法做索引, 好像是BM25 + composite(?)+ quality rank. 除了关键词, 向量检索肯定也是搜索相关内容的很好的方法. 用多种方法混合做检索, 效果应该更好. 比如我搜索 "车险" , BM25很可能不能命中 "车辆保险", "机动车保险" ..., 而向量检索应该更容易命中这种语义相近的内容.

我的Obsidian里面有5500篇笔记, 大部分是 .md, 还有相当一部分 pdf, ppt, word, 少量图片. 这些内容如果全部放在 LLM wiki 里, 上下文是撑不住的.

还有一种情况, 我这里没有, 但是企业知识库里往往有, 就是一个文档包含了多方面的内容. Chunk 不准确肯定是垃圾, 但是不相关内容一样是垃圾, 它会占用你宝贵的显存.

其实我觉得, 你这套系统, 就是一个自研的RAG, 只是你没有用传统的embedding和固定长度chunk. 或者说, 你的chunk变成了一个个完整文档.

所以, 我觉得不要轻易全面否定RAG的价值. 从经济性和效果的平衡出发, 还有很长的路要走. 包括RAG, 长上下文LLM, 知识图谱等技术应该长期共存,逐步融合, 更可能是一种混合策略.

个人浅见, 欢迎拍砖

Tony Wang

@Bukong-Li 说:

@terry 剧本写作需要多轮复杂对话，可能涉及几十万字的长文本记忆。线上模型我试过Gemini，claud，gpt。免费版对话几句就没token了。付费版我没试，但是感觉也不会够用吧。
另外，想做rag是想沉淀自己的写作风格，让ai能从自己放进rag的资料进行有控制的生成。rag不只是剧本，可能有小说，编剧工具书等。可能放进去几千部电影剧本，不同题材会分类。人物性格，人物关系等。所以做rag没必要吗？
730xd对3090，4090具体哪里支持不够呢？我是
想先给730配个显卡，做文字剧本生成。后期生视频在升级整体硬件。不知道行不行。还是说直接升级硬件？

1, 公开的知识没有太大必要放在RAG里, 在线大模型只要参数够多, 他们基本都能覆盖. 你自己的笔记, 灵感等放在RAG里有意义.

2, RAG每次只能召回相关的一部分内容, 适合你搜索分析总结等, 对你的创作肯定有帮助, 但它没法帮你保持你整个剧本的长期记忆.

3, 如果想沉淀自己的写作风格, 可以用自己的文本去训练一个LORA. 这个是 @terry 教我的, 文本LORA我没训练过, 我只训练过视觉的LORA.

4, 多轮对话和上下文的控制, 可能需要一些技巧. 比如你不要通过一次性的多轮对话来生成全部内容. 而是通过设置好整个背景设定+已经写出的所有内容, 来生成一段新的内容, 这段内容稍微短一些, 比如一章, 比如 4096个token. 然后针对这段内容进行多轮对话修改. 满意之后再开始新对话进行下一轮, 新对话还要包括全部背景设定和已经生成的内容, 这样它不会忘记.
---- 这一段是我的想象, 我没有做过长篇内容的生成, 不过我觉得是有优化空间的.因为你的剧本预计全部只有3万字, 每次全部内容加载, 再加上一段4096 tokens 的多轮滚动, 256k上下文我觉得应该是够用的.

5, 没有隐私内容的话, 还是建议购买在线大模型试一下, 在线大模型很多都支持1M以上的上下文.

Tony Wang

我个人的理解:

1, 长篇写作大参数的模型会比较有优势, 也就是说模型的知识面要宽. 最好是70B以上的模型, 或者更大参数的MOE模型. 但这类模型对显存和算力的要求很高.

2, RAG无法解决你写作的连续性, 只能帮你做某个专题或者话题的分析总结等等. 也就是说能间接帮助, 不能直接用于串联你最终的剧本生成.

3, 3万字中文大概就是 30K tokens左右, 不算很长, 假设你的所有辅助资料(比如世界观, 背景, 人物, 地点, 关系, 事件....) 也不是很大的话. 本地LLM是完全可以一次性吃下的. 一致性应该可以保持不错.

所以, 我的建议是,
1, 如果数据保护不是问题, 优先在线大模型.
2, 本地模型, 参数规模优先, MOE优先, 比如 Mixtral-8x7B, Qwen 35B 或者 Qwen 72B, llama 70B等
3, RAG如果只是公开的电影资料库, 自己做的意义不大, 除非有大量私有内容.

模型对显存的要求, 可以大致按照模型参数X2/量化比特数来计算. 以 72B, 4bit量化为例, 大致需要 72*2/4 = 36G 显存, 再加上给上下文的KV cache预留, 至少48G显存起步.

所以建议本地部署的话, 可以用RTX pro 5000 72G 或 48G, 或者用统一内存的 128G(速度会慢, 但是能跑), 如Mac, NVIDIA的Spark, 或者AMD的 395.

另外, 我对这个话题非常感兴趣, 希望楼主能够折腾成功, 多分享经验!

Tony Wang

人气越来越高了, 牛群壮大了

Tony Wang

@ezios

多分享, 期待国产尽快能顶上来.

Tony Wang

这个属于玄学范畴了

Tony Wang

@kop-wang

嗯, 我查了一下 M5max (40c) 和M5pro (20c) , qwen 3.6 27b 4bit, 4K上下文:

prefill 分别是 843:463 , 提升差不多 82%.

decode 分别是 31:17, 提升也是差不多 82%

Tony Wang

给你个参考, M5pro
1, Qwen3.6 35b A3b, 64K上下文, prefill 1300+ , decode 50+, 很流畅.
2, Qwen3.6 27b+MTP, 64K上下文, prefill 300+, decode 13, 基本不可用.
3, 1024*1024 文生图, 大概10-20秒一张, SD, Flux, zImage 都在这个范围内.
4, 视频就别想了.

M5max GPU核心数量和显存带宽都是 M5 pro 的一倍, 我认为原则上应该有 50%以上的提升. 你可以自己测算一下.

另外 M5max 128G 怎么也得4万rmb以上了.

Tony Wang

@Q-maria

键鼠推荐罗技的 MX , 都支持3个设备, 一套键鼠足够了

Tony Wang

在特老大的感召下, 论坛中的大神越来越多, 各个分享帖子真是眼花缭乱. 令人不由 Orz.

不过, 模型选择, 启动参数, 模型调优, 测试结果等等, 由于模型众多, 方法众多, 框架众多, 测试方法多样, 直接记录流水账的话, 可读性很差.

所以建议大家, 既然是经验分享, 最好结论先行. 在最开头加一段总结或者结论. 这样一目了然, 读者可以迅速进入. 再详细研读.

抡锤者

Tony Wang

帖子