LLM Token 术语词典

Token:模型内部处理文本的基本单位,不等于字符或词。
Prompt/Input Tokens:请求中输入给模型的 token。
Output Tokens:模型生成结果占用的 token。
Context Window:一次请求可处理的总 token 上限。
Token Counting:在调用前估算 token 消耗,用于控制成本。
RAG(检索增强生成):按需检索上下文,减少全量注入。
Truncation(截断):超出上下文窗口时删除部分内容的处理方式。
Max Output Tokens:限制单次最大输出长度的参数策略。