RAG LoRA和大模型的关系以及应用场景

terry

一、基础定义

1. LoRA

全称低秩适配，是轻量级模型微调技术。不改动主模型核心权重，仅新增并挂载少量低秩矩阵参数，内嵌于模型内部。属于模型层补充，用于固定、约束主模型的生成特征与行为。

2. RAG

全称检索增强生成，是外挂式知识库体系。完全不修改主模型权重，依靠向量数据库存储文本、图像等资料，通过语义检索调取外部信息并输入主模型。属于信息层补充，用于补齐主模型缺失内容、约束生成内容准确性。

3. 共性

二者均作为主模型的补充方案，核心目的是约束主模型，让输出结果符合使用预期。

二、通用大模型领域应用

1. LoRA

可用于文本、图像等全品类大模型。通过少量数据训练后，让模型固化专属能力、风格、人设、输出格式等，长期改变模型生成倾向。

2. RAG

适用于所有生成类大模型。为主模型补充训练集之外的新知识、专业细节、客观事实，解决模型知识老旧、生成内容出现幻觉的问题，不会改变模型本身能力。

三、实用举例

案例1：RAG（通用文本大模型示例）

使用本地文本大模型搭配RAG。提前将企业规章制度、产品参数文档存入向量数据库。用户向大模型提问“查询这款设备的售后保修规则”，大模型自身训练数据无相关内容，RAG先检索数据库内对应的保修条款，将检索到的原文信息拼接后一同传给大模型。大模型依托这份外部资料作答，输出内容准确贴合实际规则，避免编造信息。

案例2：LoRA（ComfyUI 图像生成示例）

基于ComfyUI与Flux图像模型使用LoRA。加载Flux主模型后，接入专门训练的人物LoRA节点。输入简单提示词“人物半身肖像”，LoRA会持续约束模型生成逻辑，固定目标人物的五官、脸型与神态，保证多次出图人物特征统一，不会出现面部变形、人物样貌错乱的情况。

terry

因为这个区Tony提议开设，我以为大神们颇有涉猎，但是开通后发现没人发帖，为了缓解尴尬的气氛，我发个基础概念。如果说未来行业应用垂直落地，RAG和Lora就是必修课。我用不到那么深，以后如果尝试做动画，可能会实践下。

AGI

x上有很多关于RAG的质疑声音，模型的不同，检索出来的效果也不同，所以很多人开始质疑了，随着上下文越来越大，很多时候，把材料全放到上下文，比rag的向量化检索更精准。感觉说的有道理，但是谁知道呢，毕竟模型月来月聪明（有利于rag），上下文越来越大（直接把文档塞到上下文）。

kop wang

对于RAG有很多唱衰的声音，主要是语义检索即便是采纳率到95%，依然是拼不过LLM直接迭代的关键词检索。语料语义化的价值在被质疑。或者说语义化引入的噪声大于其“压缩上下文”的收益。

Tony Wang

@AGI

qwen3.6 27b 本地上下文只有256k, 云端各个服务商也就 1M 或者更多些. 但一部<天龙八部> 要2M多, 一部<罗马帝国衰亡史> 要5M多. llm 一次吞不下, 即使吞下, 效率也是很低的.

对一个大的知识库进行分析, 无论从容量到效率, 仅仅依靠 llm 肯定是不行的, 起码是不经济的.

我的理解是, 肯定要想办法切片检索, 要么用RAG, 要么用分步滑动总结等等方法.

Tony Wang

@kop-wang

RAG也在不断优化中, 加入混合检索, rerank, 知识图谱, 再加上越来越长的上下文llm, 短期内应该还是主流解决方案.

长期来看, 全部上下文的分析, 从效率和经济性上都是硬伤, 只能算是大力出奇迹, 市场应该承受不起.

AGI

@Tony-Wang 你说的很对，如果AGI是以后习以为常的生活，那么，咱们现在还活在农耕时代！所有东西都在发展，有质疑不怕，能做的更好才牛逼！我的第一台电脑64MB内存，硬盘10G。

Tony Wang

@AGI

我的第一台电脑是 Ti的486, 4M 内存, 10M的全高5寸硬盘(从单位顺来的)

那个4M内存条, 当年的价格是1030元, 我现在还记得

AGI

@Tony-Wang 哈哈，都是老玩家啊。这个社区平均年龄块能领退休工资了。话说回来，愿意折腾的，还是那些人。

Tony Wang

保持好奇心, 大家共勉

terry

我频道的观众年龄从18-25到55-65都有，中年人最多，年轻人其实也不少。我说实话，老年人折腾下AI挺好的，防止老年痴呆。以后我们活到100岁应该不是难事，当然了，遇到意外噶了也正常。医疗在进步，60岁之后干嘛呢？还有几十年的时间呢。各种辅助工具也会越来越多，不如多思考下，AI就是最好的玩具。

H Qian

NotebookLM就是典型的RAG应用范例，LoRA才是小企业们的战场，可以各显神通搞出各自有特色的垂直行业模型。本人就尝试做这方面研究，包括模型生成后的安全防护话题，有兴趣可以一起探讨。

? 离线

@H-Qian 這我有興趣，最近我也在弄anythingllm 希望能類似notebookllm，目前不知道是llm模型還是embedding 的模型不夠好，總覺得回答得很保守......

kenshin

做了中医某体系的rag系统，资料切片，1400+文件耗时8小时+。还要+rerank。多维度交叉。结果：不同模型辅助诊断出来的方子不一样。重新诊断也不一定一样。现在开始新的概念：rag+agent，但是无论怎么折腾。还是不如人脑。但是如果用来总结概述。对比。这些意义还是有的。原因很简单，喂的料做出了的rag系统和使用者的语言语义不一致。还有大模型要出唯一答案，最好机械一点。temp=0， Prompt 里强制约束。现在来说，rag系统只能用来学习。不能结合llm用来搞生产。最起码严谨的工作领域还不能作为生产力。

terry

@kenshin 挺有意义的实践参考，这不仅需要RAG技术范式的进步，也需要模型在训练时就要提供类似接口。

Tony Wang

@kenshin

会不会是中医的判断本身就很模糊? 缺乏明确的指标判断? 知识库中的内容很可能就存在了冲突, 模糊, 交叉等现象.

566656661

@kenshin

我是屬於公司内部文件 (~500頁精細操作) + 助手 + 提供其他應用程式API作爲Agentic Control Tool Call

只能説連POC都舉步維艱, 最後還被老闆刹停了...

儘管有API可以呼叫但是Agentic Workflow和General Chat的邊界選用這個真的很讓人頭痛

Tool Call至少可以用Structured Output來限制但是模型選擇延續Workflow跟Chat這個基本無解

kenshin

@Tony-Wang 某系体系是比较规范的。问诊单也可以机械到细化。大方向不应该错的。六经辨证，总能分出哪一经或多经合病并病。表里同病。水火气血，单一病还是两者三者四个都出现，还出现权重比例不一样。证据链越长，指向月明确。但是通用LLM还是只是通用。个人使用，没硬件没能力微调。现在使用中只作参考。大多数辅助诊断和选方都不采用。原因是病史采集语言不一定是向量库中一致。还有交叉重组，意义不一定和资料中一样。所以任重而道远。只能作为小学生做题目参考。换句话说：题目还没读懂，就写答案。九成九是错的。

terry

@Tony-Wang ，中医确实比较玄学，这事还得靠老师傅望闻问切吗，别说AI，就是你专门学中医的，也搞不准。

Jake Kwoh

可不可以说，即使是用伤寒体系这种公式化的辩证体系，也会因为一个‘证‘的多可能性，会导致多个‘证‘的更多可能性指数级别地让路由节点爆炸，最后是机器采用自认为的高confidence的答案认为一级棒，实际上有经验的从业者一眼尴尬，因为即使比对‘经验‘信息后，也是变成了一次引入更多噪音的处理-毕竟经验本身在中医体系里没有量化的golden cases？可能这个方向整体很危险，因为面对现代化生活的各种乱七八糟，和百年前都已经十万八千里了，更不要说一两千年前，现代化的各种奇奇怪怪的病，早超出了古人‘病‘的范畴了，这导致回归调教又是一个不可知的问题。

抡锤者

RAG LoRA和大模型的关系以及应用场景

一、基础定义

1. LoRA

2. RAG

3. 共性

二、通用大模型领域应用

1. LoRA

2. RAG

三、实用举例

案例1：RAG（通用文本大模型示例）

案例2：LoRA（ComfyUI 图像生成示例）