> ## Documentation Index
> Fetch the complete documentation index at: https://ppio.com/docs/llms.txt
> Use this file to discover all available pages before exploring further.

# Serverless GPUs

**Serverless GPUs** 是专为 AI 推理场景设计的 GPU 弹性容器云产品。它提供了弹性伸缩和负载均衡的按需算力，您仅需指定容器镜像地址并根据您的业务场景稍作配置，即可快速部署一个 AI 推理服务。

## 功能特性

* **按需付费**

  仅需为 GPU 容器实例的实际运行时长付费，按秒计费，避免资源闲置，有效降低成本。

* **秒级启动**

  通过 GPU 容器实例保留、镜像预热以及高性能硬件等技术，能实现秒级冷启动，从容应对流量高峰。

* **弹性伸缩**

  支持弹性伸缩能力，可以在业务流量高峰期自动快速扩容，流量低谷期自动缩容。在保证服务稳定性的同时，尽可能为您节省成本。

* **负载均衡**

  内置高效负载均衡算法，确保请求均匀分布到各 GPU 容器实例。

* **实时日志**

  提供完整的日志功能，支持查询实时日志流，帮助您快速发现并解决潜在问题。

## 产品架构

一个 **Serverless Endpoint** 包含了多个Worker，以及弹性伸缩器、负载均衡器等组件，并且可以对外提供 URL 访问。

* **Worker**：用于处理具体请求的 GPU 容器实例，一个 Worker 对应一个 GPU 容器实例。
* **弹性伸缩器**：基于配置的弹性策略进行弹性伸缩，在流量高峰时自动扩容，流量低谷时自动缩容。
* **负载均衡器**：自动进行健康检查和负载均衡，确保请求均匀分布到 Worker。

## 产品计费

采用按量计费的方式，对实际使用的 Worker、系统盘、云存储等进行计费。详情请参见[Serverless GPUs 计费说明](/gpu/serverless-pricing)。

## 产品使用

您可以通过[控制台](https://ppio.com/gpu-instance/console/serverless)或者 [API](/gpus/endpoint/reference-create-endpoint) 创建和管理 Serverless Endpoint。