Serverless GPUs - PPIO 派欧云文档中心

Serverless GPUs 是专为 AI 推理场景设计的 GPU 弹性容器云产品。它提供了弹性伸缩和负载均衡的按需算力，您仅需指定容器镜像地址并根据您的业务场景稍作配置，即可快速部署一个 AI 推理服务。

功能特性

按需付费 仅需为 GPU 容器实例的实际运行时长付费，按秒计费，避免资源闲置，有效降低成本。
秒级启动 通过 GPU 容器实例保留、镜像预热以及高性能硬件等技术，能实现秒级冷启动，从容应对流量高峰。
弹性伸缩 支持弹性伸缩能力，可以在业务流量高峰期自动快速扩容，流量低谷期自动缩容。在保证服务稳定性的同时，尽可能为您节省成本。
负载均衡 内置高效负载均衡算法，确保请求均匀分布到各 GPU 容器实例。
实时日志 提供完整的日志功能，支持查询实时日志流，帮助您快速发现并解决潜在问题。

产品架构

一个 Serverless Endpoint 包含了多个Worker，以及弹性伸缩器、负载均衡器等组件，并且可以对外提供 URL 访问。

Worker：用于处理具体请求的 GPU 容器实例，一个 Worker 对应一个 GPU 容器实例。
弹性伸缩器：基于配置的弹性策略进行弹性伸缩，在流量高峰时自动扩容，流量低谷时自动缩容。
负载均衡器：自动进行健康检查和负载均衡，确保请求均匀分布到 Worker。

产品计费

采用按量计费的方式，对实际使用的 Worker、系统盘、云存储等进行计费。详情请参见Serverless GPUs 计费说明。

产品使用

您可以通过控制台或者 API 创建和管理 Serverless Endpoint。

最后修改于 2025年7月9日

GPU 容器实例功能概览