分享一下我折腾RAG的不成功经验

Tony Wang

被老特点名了. 我提议建立一个RAG类的应用专区, 但是自己却又不分享.

不是我不想, 是老夫做不到啊.

不过还是给大家分享一下我的需求和尝试, 也算是抛砖引玉, 一是希望能得到大神的提点, 二是也希望能给大家一点儿启发.

背景

我喜欢历史, 哲学, 国学, 用 Obsidian 5年多了, 积累了大约5000多篇各种笔记, 随笔, 以及自己写的一些小文章等. 之前在 evernote, onenote, 网易云笔记, notion等中, 也有一些笔记的积累.
我平时喜欢留痕, 有20多年的个人, 家庭, 工作等文件的积累, 包括 word, ppt, email, 以及经过ocr的pdf等等.

需求

我希望对自己的笔记, 随笔等等进行智能的检索, 分析, 提炼. 帮助我更多地思考和 output, 目前主要是文章, 将来也想学习通过视频, 数字人等进行 output.
我希望能对自己的生活和工作文件, 进行智能的检索和提炼, 比如我最近在申请美国签证, 我需要填写一个叫作 DS160的表格, 这个表格我从20多年前就填写过, 填写过好多次. 我如何快速找到它们, 提取其中的内容, 保持一致性? ( 因为如果内容不一致, 有可能会带来签证官的疑问)
类似这样的需求还有很多. 这些内容一是数量太大, 无法上传到云端处理, 二是其中有很多隐私, 如财务, 法律文件等.
从20多年前我就在找解决方案. 包括google desktop, spotlight, Alfred, Raycast ... 这些传统的全文搜索, 都无法满足我的需求.

初步折腾 RAG

Obsidian中, 我一开始用 smart connections, 后来用copilot, 但一直调整不好, 现在只能暂时用 llm-wiki.
文件系统中, 我在ChatGPT和Claude的帮助下, 用脚本做了一个本地RAG系统: 先OCR, whisper提炼字幕, 改长文件名; 然后切片, rerank; 最后用qwen 27b (大部分时候用35A3), 进行搜索, 对话, 提炼, 总结分析等.
切片的参数, embedding 模型, rerank 方法, 关键词+向量数据库的混合, 都进行了一些尝试.
效果始终不好. 一是相关性和准确率偏低, 二是有很多幻觉现象, 幸亏我对自己积累的内容比较了解, 否则真会被骗.
前几天跟老特聊, 才知道 Lora 也能应用在RAG中, 打算稍后继续折腾一下.

对个人知识库和本地知识库的AI化判断.

long context llm 能够准确地分析总结, 但是效率和经济性很差, 这是无法避免的硬伤.
大体量数据库(还远远称不上海量), 是无法单独通过 long context llm 来解决的. 必须得想办法切片, 控制上下文长度后进行分析.
切片的方法, 可以是多种方式的混合, 比如语义向量, 上下文的总结压缩, 滑动或者滚动内容窗口等.

总结

以上是我个人的一些折腾总结, 希望大神们多多指点.
最近在忙着搬家的事情, 所以这个总结也没有精力整理太多的细节,
估计还要有2个多月才能空闲下来, 到时候会投入更多的精力. 补充细节和继续折腾.

terry

这个区以后就靠你了，我下半年忙完客户的单子，在看看自己能不能涉猎下，话说这玩意到底有没有用。

mark

加油. 不错的.

williamlouis

回来聚。最近 AI在线厂商技术都没这么大跃进。想超越机会多多。加油。

applejuice

Claude 帮我设置好rag 基本版需要继续改

farmer node

rag 检索已经有非常成熟的工具，没必要自己折腾了，像是国内应用腾讯的 ima （可以直接下载登录）， cherryStudio，或是dify ，这些直接就可以用，把文件丢进去，然后自己就切分了，如果需要控制颗粒度，dify 的效果会好些，你可以试试

sirwang

rag方案有不少，但貌似各有各的坑啊？这东西现在好像还不够成熟啊？还是我的认知需要更新？

farmer node

嗯，具体看场景，和颗粒度，我觉得dify 做 rag 应该是都大部分的生产场景了，可以保证基础检索的召回质量，尤其是它内置了重排序。再加上它支持混合检、分段优化等操作的手段，所以大部分的生产场景是比较够用了，像是我做的学习习题板块，是完全够用的，因为不涉及到上下文，所以是够用的。但是多轮对话或是涉及到表格的情况，还是有问题，所以看是看具体场景。

bingqin wang

我正好有个开源项目适合大佬的需求你可以试试我做了封装直接安装就能用知识入网里面有协议直接用agent自己读协议工作比较省力https://github.com/superalp1985/fame-knowledge-agent-gateway

抡锤者

分享一下我折腾RAG的不成功经验

背景

需求

初步折腾 RAG

对个人知识库和本地知识库的AI化判断.

总结