跳转到主要内容

计费方式

PPIO LLM API 采用 按 Token 用量计费 的方式。每次 API 调用的费用由以下两部分组成:
  • 输入 Token(Input Tokens):您发送给模型的 prompt 内容所消耗的 token 数
  • 输出 Token(Output Tokens):模型生成的响应内容所消耗的 token 数
最终费用 = 输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价
不同模型的 Token 单价不同,请参阅 模型定价页面 查看各模型的具体价格。

HTTP 状态码

以下为 API 请求可能返回的 HTTP 状态码及对应说明:
HTTP 状态码名称说明是否计费
200请求成功请求正常处理并返回结果计费
400Bad Request请求参数不正确,请检查请求格式、字段名称或取值范围不计费
401UnauthorizedAPI Key 设置不正确或未设置不计费
403Forbidden权限不足,账户可能无权访问特定模型或需完成身份认证不计费
429Rate Limited触发了速率限制(TPM 或 RPM 超限)不计费
499Client Disconnected用户主动断开连接计费
500Internal Server Error服务器内部错误不计费
503Service Unavailable服务不可用,服务端过载或下游服务故障不计费
504Gateway Timeout网关超时不计费
计费原则:
  • 请求未到达模型(如参数错误、认证失败、限流等):不计费
  • 平台原因返回报错(500/503/504):不计费,平台承担
  • 请求成功到达模型并开始推理(200/499):全额计费

499 断连计费规则

当用户主动断开连接(HTTP 499)时,模型可能已在服务端执行推理并产生了资源消耗。计费规则如下:
请求模式计费规则
Non-Stream(非流式)全额计费,不论何时断开
Stream(流式)全额计费,不论何时断开
当请求已发送至模型并开始推理后,无论用户在何时断开连接,均按全额计费
最佳实践
  • 合理设置 max_tokens 参数控制最大生成长度,避免不必要的 token 消耗
  • 如需中途停止生成,建议使用 max_tokens 做预先控制,而非直接断开连接
  • 合理设置客户端超时时间(建议 ≥ 60 秒),避免因超时导致的意外断连

常见问题

当请求到达模型后,模型在服务端执行推理会消耗计算资源。即使客户端断开连接,已经产生的计算消耗仍然存在,因此按全额计费。
建议通过 max_tokens 参数预先限制生成长度,而不是中途断开连接。如果您的业务场景需要灵活控制输出长度,这是最有效的方式。
499 请求会和正常请求一样出现在您的用量明细中,标记为消耗的 token 数量。