LangChain文件解析：CSV/JSON/Markdown处理（附：文件编码乱码解决方案）

作者： Dr.n8n 更新时间：2025-12-20 10:00:41 分类：n8n教程

“文件读进来全是乱码？”——别慌，LangChain解析三剑客+编码避坑指南来了

上周帮一家跨境电商客户搭建智能客服系统时，他们的运营小哥抓狂地给我发来截图：“Dr.n8n！我上传的CSV订单表，LangChain解析完全是火星文！”——这场景是不是似曾相识？Webhook明明接收到文件了，结果下游节点全报错；JSON结构看似标准，却死活提取不出字段；Markdown格式优雅，一处理就崩……别急，今天我就手把手带你打通LangChain文件解析的任督二脉，连最头疼的编码乱码问题也一并解决。

为什么你的LangChain总在文件门口“卡壳”？

很多人以为LangChain只是个“大模型聊天机器人”，其实它更是个超强的“文档搬运工+翻译官”。当你把一份CSV、JSON或Markdown丢给它，它内部会经历三个关键阶段：加载（Load）→ 分块（Chunk）→ 向量化（Embed）。其中第一步“加载”，就是90%乱码和解析失败的根源。

我在实战中发现：LangChain默认使用UTF-8编码加载文件。但现实是——Windows记事本默认保存为GBK，某些老旧ERP导出的是Latin-1，Mac用户可能用UTF-16……就像你拿一把只能开铜锁的钥匙，去捅铁门上的锁孔，能不卡吗？

CSV解析：不只是“逗号分隔”那么简单

CSV看似简单，实则暗藏玄机。除了编码，还有分隔符陷阱（有人用逗号，有人用分号）、引号包裹规则、甚至BOM头捣乱。LangChain的CSVLoader能帮你搞定大部分情况，但关键在于——你得告诉它文件的真实编码。

from langchain.document_loaders.csv_loader import CSVLoader

# 关键参数：encoding！
loader = CSVLoader(file_path="orders.csv", encoding='gbk')  # 中文环境常见
docs = loader.load()

# 如果不确定编码？先用chardet库检测！
import chardet
with open("orders.csv", 'rb') as f:
    result = chardet.detect(f.read())
    encoding = result['encoding']
    print(f"检测到编码: {encoding}")

JSON解析：当“结构化数据”遇上“非标准格式”

JSON本应是机器最爱的格式，但现实中的JSON常被人类“污染”——比如注释、尾随逗号、单引号包裹字符串。LangChain的JSONLoader依赖Python原生json.loads()，对格式要求极其严格。我的解决方案是：先用宽松解析器预处理，再喂给LangChain。

import json
from langchain.document_loaders import JSONLoader

# 预处理：移除注释和尾随逗号（示例用正则，生产环境建议用demjson库）
def clean_json(text):
    import re
    text = re.sub(r'//.*', '', text)  # 移除行内注释
    text = re.sub(r',s*}', '}', text)  # 移除对象尾随逗号
    return text

with open('config.json', 'r', encoding='utf-8') as f:
    raw_text = f.read()
    cleaned_text = clean_json(raw_text)
    data = json.loads(cleaned_text)  # 先确保能解析

# 再用JSONLoader加载
loader = JSONLoader(
    file_path='config.json',
    jq_schema='.items[]',  # 用jq语法精准提取数组
    text_content=False
)
docs = loader.load()

Markdown解析：保留结构，更要保留“灵魂”

Markdown的魅力在于语义化标题、列表、代码块。LangChain的UnstructuredMarkdownLoader不仅能提取文字，还能识别标题层级（H1-H6）并作为元数据保存。这对后续按章节检索至关重要。

from langchain.document_loaders import UnstructuredMarkdownLoader

loader = UnstructuredMarkdownLoader("README.md")
docs = loader.load()

# 查看第一个块的元数据
print(docs[0].metadata)  
# 输出类似：{'source': 'README.md', 'section': '## 快速开始', 'page_number': 1}