LangChain RAG数据流：文档加载与文本切分策略（附：PDF解析乱码与重叠窗口）

作者： Dr.n8n 更新时间：2025-12-19 16:00:41 分类：n8n教程

为什么你的RAG系统总在“胡说八道”？问题可能出在第一步

上周，一位做法律AI助手的客户找到我，说他们的LangChain RAG模型总是“张冠李戴”——明明上传的是《民法典》第1165条，结果模型引用的是第1184条。更诡异的是，有时还会蹦出一堆乱码字符。我打开他的数据流一看：文档加载用默认PDF解析器，文本切分用固定500字符一刀切——这哪是RAG，简直是“随机答案生成器”。

Dr. n8n经验谈：我在帮某电商客户搭建自动客服Agent时发现，80%的“幻觉回答”根源不在LLM，而在数据预处理阶段——尤其是文档加载和文本切分这两个“隐形杀手”。

文档加载：别让PDF解析器成为你的“猪队友”

想象你让一个只会看简体字的人去读繁体古籍，还要求他做摘要——结果可想而知。PDF解析就是RAG的“第一读者”，选错工具，后面全是无用功。

PyPDF2：轻量但脆弱，遇到扫描件或复杂排版直接“躺平”，输出UnicodeDecodeError是家常便饭。
pdfplumber：能提取表格和坐标，但对中文支持一般，经常把“合同甲方”切成“合同甲方”。
Unstructured.IO（推荐）：LangChain官方合作伙伴，内置OCR和布局分析，连带水印的扫描合同都能啃下来。

from langchain_community.document_loaders import UnstructuredPDFLoader
loader = UnstructuredPDFLoader("./contract.pdf", mode="elements")
docs = loader.load()  # 自动识别标题、段落、表格，保留语义结构

文本切分：重叠窗口不是玄学，是防“断章取义”的保险丝

把《红楼梦》每500字切一刀，结果“贾宝玉初见林黛玉”被拦腰斩断——前半句在块A，后半句在块B。当用户问“宝黛初遇场景”，模型只能瞎猜。这就是为什么需要重叠窗口（Overlap Window）。

类比教学：就像地铁车厢连接处——两节车厢有1米重叠区，确保乘客不会掉进缝隙。文本切分同理：

切分策略	适用场景	重叠长度建议
RecursiveCharacterTextSplitter	通用文本（代码/小说/报告）	chunk_size * 10% ~ 20%
MarkdownHeaderTextSplitter	技术文档/博客	按标题层级自动继承上下文

from langchain_text_splitters import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, 
    chunk_overlap=100,  # 关键！保留前后文衔接
    separators=["nn", "n", "。", "！", "？", ""]
)
chunks = splitter.split_documents(docs)