基本介绍

抢占式 GPU 实例(Spot 实例)是一种使用闲置算力的实例。相比于普通按量计费的实例,价格可以低至 5 折,但性能没有差异。Spot 实例在平台资源库存充足时可以购买使用,在资源库存不足时会被中断回收,适用于短期运行,可以容忍中断的业务场景,能够帮助您节约资源使用成本。
Spot 实例的具体价格请参见GPU 定价。更多关于计费方式的说明,请参见GPU 容器实例计费说明
使用 Spot 实例让您在享受成本优势的同时,获得可靠的服务保障。
  • 更低的使用成本:Spot 实例的价格通常为按量计费价格的50%,计费规则与按量计费类似,即先使用再付费,为实际使用时长付费。
  • 保护期内运行稳定:Spot 实例在创建后默认享有1个小时的保护期,在保护期内可以稳定运行,不会被中断回收。
  • 中断回收时提前通知:超出保护期后,如果出现资源库存不足,Spot 实例会被中断回收。回收前1小时,平台会通过 API 、短信等方式发送通知。到点后,平台会强制回收实例。
建议您结合业务场景,灵活地组合使用包年包月、按量计费和 Spot,在满足业务需求的同时节约资源使用成本。

适用场景

由于 Spot 实例有中断回收的风险,因此适用于短期运行,可以容忍中断的业务场景。例如:
  • 短时间或实验性的深度学习训练与推理任务。如:模型训练实验、算法验证、小规模推理等。
  • 夜间或周末批处理、可重算型任务。如:数据处理、批量计算、定时任务等。
  • 其他短时任务。如课堂实验、技术演示等。
对于关键业务,以及实时性和稳定性要求较高的业务场景,如持续运行的任务等,建议使用包年包月或按量计费实例来确保服务连续性。

运行流程

spot
  1. 选择合适的实例规格创建 GPU 实例,计费方式选择抢占式计费。即创建抢占式 GPU 实例(Spot 实例)。
  2. 创建后的1小时保护期内,Spot 实例稳定运行。您可以按需开关机或释放。
  3. 平台定时检测资源库存。当资源库存不足时,对于超出保护期的 Spot 实例,发送1小时后中断回收的通知。
  4. 收到回收通知后,请您及时确认和响应,保存需要的数据。
  5. 到回收时间点后,Spot 实例被强制回收,自动释放。

创建方式

控制台

实例管理页面单击「创建新实例」,「计费方式」选择「抢占式计费」,并完成其他参数设置,即可创建抢占式 GPU 实例。更多关于创建 GPU 实例时的参数配置,请参见创建 GPU 容器实例

API

调用创建 GPU 实例接口时,将billingMode设置为spot,即可创建抢占式 GPU 实例。

最佳实践

Spot 实例的中断回收不可避免,请根据自身业务场景,为可以容忍中断的业务选择使用。使用时,您可以参考以下建议,最大化 Spot 实例的使用效果。
  • 开启断点续训 定期保存 Checkpoint 至独立存储,确保在实例中断时能够快速恢复。
  • 设计可重试任务 在作业层面进行拆分设计,设置重试、幂等、队列等。将任务拆分为多个小的可重试单元,支持断点续传和失败重试机制。
  • 混合使用计费方式 根据业务场景和重要程度灵活选择计费方式,关键性业务使用包年包月或按量计费实例,非关键性/短时/可重算业务使用 Spot 实例。
  • 及时响应回收通知 收到 Spot 实例的回收通知后,请尽快保存镜像/数据等,避免因强制回收(即使正在进行保存镜像操作等也会按时释放)造成数据丢失。