Token 基础:为什么每次调用都要关心 token
在大模型调用中,token 是输入与输出的计量单位。一次请求的总消耗通常可以理解为: 输入 token + 输出 token。它直接影响成本、延迟和可处理的上下文长度。
- 输入 token:系统指令、用户问题、历史对话、附加上下文
- 输出 token:模型生成回复的长度
- 上下文窗口:模型单次可处理 token 的总上限
在大模型调用中,token 是输入与输出的计量单位。一次请求的总消耗通常可以理解为: 输入 token + 输出 token。它直接影响成本、延迟和可处理的上下文长度。