基本介绍
抢占式 GPU 实例(Spot 实例)是一种使用闲置算力的实例。相比于普通按量计费的实例,价格可以低至 5 折,但性能没有差异。Spot 实例在平台资源库存充足时可以购买使用,在资源库存不足时会被中断回收,适用于短期运行,可以容忍中断的业务场景,能够帮助您节约资源使用成本。Spot 实例的具体价格请参见GPU 定价。更多关于计费方式的说明,请参见GPU 容器实例计费说明。
- 更低的使用成本:Spot 实例的价格通常为按量计费价格的50%,计费规则与按量计费类似,即先使用再付费,为实际使用时长付费。
- 保护期内运行稳定:Spot 实例在创建后默认享有1个小时的保护期,在保护期内可以稳定运行,不会被中断回收。
- 中断回收时提前通知:超出保护期后,如果出现资源库存不足,Spot 实例会被中断回收。回收前1小时,平台会通过 API 、短信等方式发送通知。到点后,平台会强制回收实例。
适用场景
由于 Spot 实例有中断回收的风险,因此适用于短期运行,可以容忍中断的业务场景。例如:- 短时间或实验性的深度学习训练与推理任务。如:模型训练实验、算法验证、小规模推理等。
- 夜间或周末批处理、可重算型任务。如:数据处理、批量计算、定时任务等。
- 其他短时任务。如课堂实验、技术演示等。
对于关键业务,以及实时性和稳定性要求较高的业务场景,如持续运行的任务等,建议使用包年包月或按量计费实例来确保服务连续性。
运行流程

- 选择合适的实例规格创建 GPU 实例,计费方式选择抢占式计费。即创建抢占式 GPU 实例(Spot 实例)。
- 创建后的1小时保护期内,Spot 实例稳定运行。您可以按需开关机或释放。
- 平台定时检测资源库存。当资源库存不足时,对于超出保护期的 Spot 实例,发送1小时后中断回收的通知。
- 收到回收通知后,请您及时确认和响应,保存需要的数据。
- 到回收时间点后,Spot 实例被强制回收,自动释放。
创建方式
控制台
在实例管理页面单击「创建新实例」,「计费方式」选择「抢占式计费」,并完成其他参数设置,即可创建抢占式 GPU 实例。更多关于创建 GPU 实例时的参数配置,请参见创建 GPU 容器实例。API
调用创建 GPU 实例接口时,将billingMode
设置为spot
,即可创建抢占式 GPU 实例。
最佳实践
Spot 实例的中断回收不可避免,请根据自身业务场景,为可以容忍中断的业务选择使用。使用时,您可以参考以下建议,最大化 Spot 实例的使用效果。- 开启断点续训 定期保存 Checkpoint 至独立存储,确保在实例中断时能够快速恢复。
- 设计可重试任务 在作业层面进行拆分设计,设置重试、幂等、队列等。将任务拆分为多个小的可重试单元,支持断点续传和失败重试机制。
- 混合使用计费方式 根据业务场景和重要程度灵活选择计费方式,关键性业务使用包年包月或按量计费实例,非关键性/短时/可重算业务使用 Spot 实例。
- 及时响应回收通知 收到 Spot 实例的回收通知后,请尽快保存镜像/数据等,避免因强制回收(即使正在进行保存镜像操作等也会按时释放)造成数据丢失。