<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[凌晨三点起床,忙乎一天,本地知识库RAG的 chunk+embedding弄完了.]]></title><description><![CDATA[<p dir="auto">凌晨三点醒了,想想了,前两天发了一个 chunk+embedding的 技术栈,是垃圾.</p>
<p dir="auto">做梦都在想,是不是rag的技术栈选错了, 怎么也睡不着了.</p>
<p dir="auto">自己放的狠话,自己拉的粑粑,自己含泪也要吃下去.</p>
<p dir="auto"><a href="https://lcz.me/topic/707/%E5%9F%BA%E4%BA%8Erag-wiki-%E7%90%86%E8%AE%BA-%E6%88%91%E5%81%9A%E4%BA%86%E4%B8%80%E5%A5%97%E6%9C%AC%E5%9C%B0%E7%9F%A5%E8%AF%86%E5%BA%93-%E7%94%A8%E4%BA%8E%E5%AE%A2%E6%9C%8D%E6%9C%BA%E5%99%A8%E4%BA%BA./15#gsc.tab=0">https://lcz.me/topic/707/基于rag-wiki-理论-我做了一套本地知识库-用于客服机器人./15#gsc.tab=0</a></p>
<p dir="auto">每一个资深程序员,天生就是偏执狂. 我就是吃技术这碗饭的.</p>
<p dir="auto">从零开始做起,之前没接触过chunk+embedding .</p>
<p dir="auto">最终embedding 选了:  text-embedding-qwen3-embedding-0.6b<br />
向量数据库: lancedb 0.33.0</p>
<p dir="auto">主要是中文支持好.</p>
<p dir="auto">放几个截图, 睡觉去了.</p>
<p dir="auto">PS:<br />
我真的觉得, 向量工程师, 你们天天上班再做什么, 我一周都做两个模式, 你们真是再公司骗钱的.</p>
<p dir="auto">而且从零架构,到完工, 也就一周.</p>
<p dir="auto">剩下的工作 ,基本就是调优, 和优化参数.</p>
<p dir="auto">一个向量工程师, 在一线城市, 大概30k-50k 月薪. 在我看来,半个月完事, 剩下就是维护.</p>
<p dir="auto">我做一个OPC,这种一人公司, 对外1家公司本地知识库 收费10k, 根本花不了半个月时间.</p>
<p dir="auto">我的个人战斗力,自测再 1:20, 正常如果战斗力拉满  ,一天干20小时, 基本1:50人的战斗力.</p>
<p dir="auto">截图:</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/e26f1471-1cba-4849-9827-b283fb879f1c.jpeg" alt="8575a32e-ff9e-41c7-8dc6-539293a88af2-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/8ba8aa34-2ebd-43e5-a090-b20012a3255f.jpeg" alt="49e798c2-15a2-4fba-a4bf-befd70594e9e-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/d27eaeaf-c6df-467d-9124-68abb3ca5644.jpeg" alt="56cad466-591e-415e-911c-b34b481cd5e0-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/e5dc5b95-6c16-471d-b1bb-39fa2ca85201.jpeg" alt="cecff849-baf2-4091-8438-f8ee94be2b32-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">向量数据库 lancedb</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/22761a9f-1d10-4c80-9957-8b999f0bf0a8.jpeg" alt="d5e4b7b2-d0c2-4934-986e-9421f7dabff9-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/728/凌晨三点起床-忙乎一天-本地知识库rag的-chunk-embedding弄完了.</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 09:31:34 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/728.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 28 Jun 2026 11:28:02 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 凌晨三点起床,忙乎一天,本地知识库RAG的 chunk+embedding弄完了. on Sun, 28 Jun 2026 14:45:37 GMT]]></title><description><![CDATA[<p dir="auto">默默的留个小脚印。能看懂。看懂是完全超出我的知识面。</p>
]]></description><link>https://lcz.me/post/8669</link><guid isPermaLink="true">https://lcz.me/post/8669</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sun, 28 Jun 2026 14:45:37 GMT</pubDate></item><item><title><![CDATA[Reply to 凌晨三点起床,忙乎一天,本地知识库RAG的 chunk+embedding弄完了. on Sun, 28 Jun 2026 12:06:44 GMT]]></title><description><![CDATA[<p dir="auto">这是 chunk 分块的参数 :  按照 800, 重复120, 每个chunk 是680字符.</p>
<p dir="auto">embed:<br />
enabled: true<br />
provider: "lm-studio-local"<br />
model: "text-embedding-qwen3-embedding-0.6b"<br />
batch_size: 16<br />
write_back_to_mongodb: false<br />
chunk_size: 800<br />
chunk_overlap: 120</p>
]]></description><link>https://lcz.me/post/8649</link><guid isPermaLink="true">https://lcz.me/post/8649</guid><dc:creator><![CDATA[mark]]></dc:creator><pubDate>Sun, 28 Jun 2026 12:06:44 GMT</pubDate></item><item><title><![CDATA[Reply to 凌晨三点起床,忙乎一天,本地知识库RAG的 chunk+embedding弄完了. on Sun, 28 Jun 2026 11:57:49 GMT]]></title><description><![CDATA[<p dir="auto">已经对比完了, 只是 没帖.  还是 index+search的效果好. 目前我的样本是这样的.<br />
备注 seeker 是 index +search路线, rag 是 chunk+ embedding路线</p>
<p dir="auto">以下是 AI总结的:</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/70d7efe7-bbc0-4dec-a346-78e13bd02520.jpeg" alt="f08f9690-5732-4f0e-ab40-a4faebac4699-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/8648</link><guid isPermaLink="true">https://lcz.me/post/8648</guid><dc:creator><![CDATA[mark]]></dc:creator><pubDate>Sun, 28 Jun 2026 11:57:49 GMT</pubDate></item><item><title><![CDATA[Reply to 凌晨三点起床,忙乎一天,本地知识库RAG的 chunk+embedding弄完了. on Sun, 28 Jun 2026 11:32:42 GMT]]></title><description><![CDATA[<p dir="auto">劳动模范...</p>
<p dir="auto">期待你之后的对比.</p>
<p dir="auto">BGE对中文支持也不错的</p>
]]></description><link>https://lcz.me/post/8644</link><guid isPermaLink="true">https://lcz.me/post/8644</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Sun, 28 Jun 2026 11:32:42 GMT</pubDate></item></channel></rss>