-
被 老特 点名了. 我提议建立一个RAG类的应用专区, 但是自己却又不分享.
不是我不想, 是老夫做不到啊.

不过还是给大家分享一下我的需求和尝试, 也算是抛砖引玉, 一是希望能得到大神的提点, 二是也希望能给大家一点儿启发.
背景
- 我喜欢历史, 哲学, 国学, 用 Obsidian 5年多了, 积累了大约5000多篇各种笔记, 随笔, 以及自己写的一些小文章等. 之前在 evernote, onenote, 网易云笔记, notion等中, 也有一些笔记的积累.
- 我平时喜欢留痕, 有20多年的 个人, 家庭, 工作 等文件的积累, 包括 word, ppt, email, 以及经过ocr的pdf等等.
需求
- 我希望对自己的笔记, 随笔等等进行智能的检索, 分析, 提炼. 帮助我更多地思考和 output, 目前主要是文章, 将来也想学习通过视频, 数字人等进行 output.
- 我希望能对自己的生活和工作文件, 进行智能的检索和提炼, 比如我最近在申请美国签证, 我需要填写一个叫作 DS160的表格, 这个表格我从20多年前就填写过, 填写过好多次. 我如何快速找到它们, 提取其中的内容, 保持一致性? ( 因为如果内容不一致, 有可能会带来签证官的疑问)
- 类似这样的需求还有很多. 这些内容一是数量太大, 无法上传到云端处理, 二是其中有很多隐私, 如财务, 法律文件等.
- 从20多年前我就在找解决方案. 包括google desktop, spotlight, Alfred, Raycast ... 这些传统的全文搜索, 都无法满足我的需求.
初步折腾 RAG
- Obsidian中, 我一开始用 smart connections, 后来用copilot, 但一直调整不好, 现在只能暂时用 llm-wiki.
- 文件系统中, 我在ChatGPT和Claude的帮助下, 用脚本做了一个本地RAG系统: 先OCR, whisper提炼字幕, 改长文件名; 然后切片, rerank; 最后用qwen 27b (大部分时候用35A3), 进行搜索, 对话, 提炼, 总结分析等.
- 切片的参数, embedding 模型, rerank 方法, 关键词+向量数据库的混合, 都进行了一些尝试.
- 效果始终不好. 一是相关性和准确率偏低, 二是有很多幻觉现象, 幸亏我对自己积累的内容比较了解, 否则真会被骗.
- 前几天跟 老特 聊, 才知道 Lora 也能应用在RAG中, 打算稍后继续折腾一下.
对个人知识库和本地知识库的AI化判断.
- long context llm 能够准确地分析总结, 但是效率和经济性很差, 这是无法避免的硬伤.
- 大体量数据库(还远远称不上海量), 是无法单独通过 long context llm 来解决的. 必须得想办法切片, 控制上下文长度后进行分析.
- 切片的方法, 可以是多种方式的混合, 比如语义向量, 上下文的总结压缩, 滑动或者滚动内容窗口等.
总结
- 以上是我个人的一些折腾总结, 希望大神们多多指点.
- 最近在忙着搬家的事情, 所以这个总结也没有精力整理太多的细节,
- 估计还要有2个多月才能空闲下来, 到时候会投入更多的精力. 补充细节和继续折腾.
-
T terry 从 AI进阶话题 移动了该主题
-
T terry 从 LLM讨论区 移动了该主题
话说这玩意到底有没有用。