200行代码 vs 全家桶框架：手撕RAG系统后，我把LangChain扔进了回收站|上下文|代码|全家桶|向量|客户端节点|索引

检索增强生成（RAG）已经成为给大模型应用添加知识库的标准做法。用户提问时，系统从你的数据里找出相关片段，连同问题一起丢给模型，模型基于你提供的上下文作答。

但大多数教程一上来就搬出LangChain。这篇指南跳过框架，从零开始搭建完整流水线：pgvector负责向量存储，OpenAI Python SDK处理嵌入和生成，psycopg对接数据库。最终代码不到200行。

数据库设计：三张表搞定核心架构

pgvector是PostgreSQL的向量扩展，把向量检索直接塞进关系数据库。不需要额外维护一套专用向量库，备份、权限、事务都能复用现有基础设施。

表结构很直白。documents表存文档元数据：标题和来源。chunks表存切片后的文本块，每个块带1536维向量，用HNSW索引加速相似度搜索。索引参数设成m=16、ef_construction=64，在构建速度和召回率之间取平衡。

这里有个细节：token_count字段预留了，但实际代码里用的是len(chunk.split())做简单估算。生产环境建议换用tiktoken精确计算，避免超出模型上下文窗口。

文本切片：滑动窗口策略

chunk_text函数实现了带重叠的滑动窗口。默认每块400词、重叠50词。重叠设计是为了防止关键信息正好落在边界被切断。比如"2024年第三季度营收增长"如果切成"2024年第三季度"和"营收增长"，语义就碎了。

嵌入环节做了批处理优化。OpenAI的嵌入接口单次最多接受256条输入，代码里用range(0, len(chunks), 256)分批处理，避免超长列表被截断或触发速率限制。

模型选的是text-embedding-3-small，1536维输出，成本和性能的平衡点。如果预算充裕且对精度敏感，可以换成text-embedding-3-large，3072维，但价格翻几倍。

检索逻辑：余弦相似度的SQL实现

retrieve_chunks函数是核心。先把问题转成向量，然后执行这条SQL：

SELECT c.content, d.title, 1 - (c.embedding <=> %s::vector) AS similarity...

<=>是pgvector的余弦距离运算符，返回0到2之间的值（0表示完全相同）。用1减去距离得到相似度分数，方便人类阅读。JOIN操作把文本块和原始文档关联，输出时带上来源标题，方便追溯。

limit=5默认返回前5个最相关块。这个值需要根据实际场景调：知识库密集、答案分散时加大，文档结构清晰、答案集中时减小，省token。

生成环节：强制约束模型

answer_question函数把检索结果格式化成上下文块，用---分隔，前面标注来源。system prompt很直接："Answer using only this context"，禁止模型调用预训练知识瞎编。

temperature=0.2压低随机性，适合事实性问答。如果要做创意写作或头脑风暴，可以调高到0.7-0.9。

模型选gpt-4o-mini，便宜、快、够用。上下文窗口128K，但这里检索结果通常几千token，远未触顶。

为什么选pgvector，而不是专用向量数据库？

这是架构上最关键的取舍。Pinecone、Weaviate、Milvus这些专用方案在超大规模场景确实有优势，但大多数应用根本到不了那个量级。

pgvector的好处是减少技术栈复杂度。你的用户数据、业务数据、向量数据全在一个库里，JOIN查询不用跨服务，事务能保证一致性，备份策略统一。团队如果已经有PostgreSQL经验，学习成本几乎为零。

性能方面，HNSW索引在百万级向量上查询延迟通常在10-50毫秒，对交互式应用足够快。真到千万级再考虑分片或迁移也不迟——向量导出导入比想象中还简单。

这套代码缺什么？

生产部署至少还要补几块：重排序（reranking），用更精确的模型对初筛结果二次打分；查询重写，把口语化问题扩展成更利于检索的表述；缓存层，常见问题的嵌入结果和答案直接命中；监控，追踪检索命中率、答案相关性、延迟分布。

但这些增量改进，在200行骨架上扩展，比从LangChain的抽象层里扒拉出来要直观得多。

200行代码 vs 全家桶框架：手撕RAG系统后，我把LangChain扔进了回收站

热搜

热门跟贴

热搜

热门跟贴

相关推荐

凌晨2点的1次粘贴，让16位工程师的密码在别人的服务器上躺了3年

微软把JSON反序列化藏了10年，开发者发现后集体破防

6 天、96 万行 Rust、直接合并？Claude Code 被 Bun 的内存泄漏拖垮后，Bun 让 Claude 亲手重写了自己

免费API扛不住21次并发调用？我用动态降级队列硬刚15 RPM限制

curl轻松扛住了最强安全模型Mythos“拷打”——17.6万行C代码仅发现1个低危漏洞

一个终端看图工具，炸出了程序员的技术债焦虑

一个中级开发者的30条血泪教训：我踩过的坑比写的代码还多

用了28年Windows后，我被Pop! OS"策反"了

GitHub高危RCE漏洞曝光，数百万代码仓库面临风险

用户花3天搭的DNS防线，被一台扫地机1秒击穿

2026 年了，老黄还是没修好N卡这个 bug

一顿操作下来，大哥直接懵了

三副五炸以弱胜强之战，格式2炸3炸惨被虐，只能含恨九泉～

不是幻觉！Claude自下指令甩锅人类，百万上下文沦为降智重灾区

ICLR 2026 Oral | Revela：用语言建模重新定义稠密检索器训练

Moltbot作者被Claude刁难后：MiniMax M2.1是最优秀的开源模型

图灵奖得主Sutton：用1967年的公式，解决流式强化学习一大缺陷

国产GPU首获全球顶级推理框架「原生门票」：MUSA合入SGLang主线

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

19岁，常青藤辍学，这群中国年轻人重构了AI记忆