1. 主要优势
启用 Prompt Cache 后,您将获得以下收益:- 成本更低 对于重复的 Prompt,无需再次推理,仅收取极少的缓存 token 费用。
- 延迟更低 缓存命中时,直接返回结果,无需等待模型推理。
- 更高吞吐 在高 QPS 场景下,Prompt Cache 能有效降低推理负载,提升整体系统服务能力。
- 对应用透明 无需在您的业务系统中增加额外逻辑或进行系统改造。
2. 支持的模型
目前多个无服务器开源模型已支持 Prompt Cache 计费,包括: 关于各模型 Prompt Cache 功能的计费详情,请访问:https://ppio.com/pricing(请查阅 “缓存” 部分)3. 适用场景
Prompt Cache 在重复 Prompt 频繁的业务场景下效果显著,包括但不限于:- 模板生成类
- 固定格式摘要
- 基于模板的改写
- 跨任务重用的 Prompt
- 文本分类与字段抽取
- 内容类型分类
- 标签或关键信息提取
- 内容审核
- 评论、广告、标题等内容的复审
- 审核类 Prompt 在不同用户或时间段重复率高
- 聊天应用中重复系统提示
- 聊天机器人身份设定
- 全局会话规则
- 多轮对话复用背景信息
- 流程/助手类 Prompt
- SQL 生成助手
- 代码修复助手
- 输出格式固定的总结助手
4. 响应示例
缓存命中时不消耗推理,成本更低、响应更快。