Prompt Cache（推理缓存）

Prompt Cache（推理缓存）是 PPIO 推理引擎提供的一项降本增效功能。当请求与历史 Prompt 完全一致时，系统会直接返回缓存结果，仅收取极少的缓存 token 费用——大幅降低成本并提升响应速度。

1. 主要优势

启用 Prompt Cache 后，您将获得以下收益：

成本更低 对于重复的 Prompt，无需再次推理，仅收取极少的缓存 token 费用。
延迟更低 缓存命中时，直接返回结果，无需等待模型推理。
更高吞吐 在高 QPS 场景下，Prompt Cache 能有效降低推理负载，提升整体系统服务能力。
对应用透明 无需在您的业务系统中增加额外逻辑或进行系统改造。

2. 支持的模型

目前多个无服务器开源模型已支持 Prompt Cache 计费，包括：关于各模型 Prompt Cache 功能的计费详情，请访问：https://ppio.com/pricing（请查阅 “缓存” 部分）

3. 适用场景

Prompt Cache 在重复 Prompt 频繁的业务场景下效果显著，包括但不限于：

模板生成类
- 固定格式摘要
- 基于模板的改写
- 跨任务重用的 Prompt
文本分类与字段抽取
- 内容类型分类
- 标签或关键信息提取
内容审核
- 评论、广告、标题等内容的复审
- 审核类 Prompt 在不同用户或时间段重复率高
聊天应用中重复系统提示
- 聊天机器人身份设定
- 全局会话规则
- 多轮对话复用背景信息
流程/助手类 Prompt
- SQL 生成助手
- 代码修复助手
- 输出格式固定的总结助手

上述场景天然有助于提升缓存命中率，从而显著降低推理成本。

4. 响应示例

缓存命中时不消耗推理，成本更低、响应更快。

若模型支持 Prompt Cache，API 调用方式无需任何修改。缓存命中时的返回样例如下：

{
    "prompt_tokens": 3295,
    "completion_tokens": 137,
    "total_tokens": 3432,
    "prompt_tokens_details":
    {
        "audio_tokens": 0,
        "cached_tokens": 448,
        "cache_creation_Prompt_tokens": 0,
        "cache_read_Prompt_tokens": 0
    }
}

产品介绍

开始使用

大语言模型API

问题合集

已接入工具列表

1. 主要优势

2. 支持的模型

3. 适用场景

4. 响应示例

产品介绍

开始使用

大语言模型API

问题合集

已接入工具列表

​1. 主要优势

​2. 支持的模型

​3. 适用场景

​4. 响应示例

1. 主要优势

2. 支持的模型

3. 适用场景

4. 响应示例