上下文窗口不足:4 种常见处理方式 最后更新:2026-04-06 · 类型:问题处理 当输入内容过长时,模型会出现截断、忽略前文或报错。通常需要通过“结构化压缩 + 分步处理”来控制 token。 摘要压缩:先把历史内容摘要,再把摘要放入后续请求。 分段处理:把大任务拆成多个小任务,逐段生成结果。 检索增强(RAG):按需取回相关片段,不做全量注入。 会话裁剪:保留关键轮次,去掉低价值历史消息。