LLM Agent 能否连续对话？上下文管理如何保持连贯？

作者： Dr.n8n 更新时间：2025-12-10 07:00:43 分类：n8n教程

为什么你的 LLM Agent 总像“金鱼记忆”？对话断片不是玄学

上周我帮一家跨境电商客户调试他们的自动客服 Agent，老板气急败坏地拍桌子：“明明上一句还在聊退货政策，下一句它就问我‘您想买什么？’——这玩意儿是故意装傻吗？”

这不是个例。90% 的初学者在搭建对话型 Agent 时，都会踩进同一个坑：以为只要接上大模型 API 就能自然对话。殊不知，LLM 本身根本没有“记忆”，它每次看到的都是一张全新的白纸。

💡 打个比方：LLM 像个顶级速记员，你每说一句话，它都飞快记下来当场作答——但你不主动把之前的记录递给他，他下一秒就把纸揉成团扔了。

上下文管理的本质：不是“存记忆”，而是“传纸条”

所谓“连续对话能力”，其实是工程师在背后不断把历史对话拼接成新提示词（Prompt），再喂给 LLM 的过程。关键在于三件事：

截取策略：保留最近 N 轮对话？还是按语义重要性筛选？
格式封装：如何让 LLM 快速识别“谁在什么时候说了什么”？
长度控制：超出 Token 上限怎么办？粗暴截断会丢失关键信息。

我在 n8n 中实战验证过，最稳定的方案是“滑动窗口 + 角色标签”。比如把对话整理成这样：

User (3分钟前): 我想退掉上周买的蓝牙耳机
Assistant (2分钟前): 请提供订单号，我帮您查退货政策
User (现在): 订单是 #ORD-2024-8866

这种结构化文本，比纯聊天记录更容易被 LLM 理解上下文。

手把手：用 n8n 实现“有记忆”的对话流

假设你要搭建一个电商客服 Agent，在 n8n 工作流中这样做：

用 Webhook 节点接收用户新消息
通过 Function 节点读取数据库中的对话历史（或临时存储在 workflow 的 $execution.context）

用 JavaScript 拼接最新 Prompt：

// 示例代码：保留最近3轮对话
const history = $item("Get_History").json.history || [];
const recent = history.slice(-3); // 滑动窗口
const prompt = `你是一个专业客服，请根据以下对话继续服务：n${recent.map(msg => `${msg.role}: ${msg.content}`).join('n')}n当前用户新消息：${$input.item.json.message}`;

将拼好的 prompt 发送给 OpenAI/本地 LLM 节点
收到回复后，别忘了把本轮问答追加到历史记录里，并存回数据库！

这里最容易漏掉的是第5步——很多开发者只顾着输出答案，却忘了更新“记忆库”，导致下次对话彻底失忆。

进阶技巧：当对话太长时，用“摘要”代替全文

如果业务场景需要超长对话（比如法律咨询），Token 很快会爆表。这时候就要祭出“摘要压缩术”：

阶段	操作
对话轮数 < 5	直接拼接原始文本
对话轮数 ≥ 5	调用 LLM 生成前4轮的摘要，替换掉原文
对话轮数 ≥ 10	对摘要再摘要，形成“摘要的平方”

我在某金融客户项目里实测，用这个方法能把 3000 Token 的对话压缩到 500 Token 以内，且关键信息保留率超过 90%。