> ## Documentation Index
> Fetch the complete documentation index at: https://ppio.com/docs/llms.txt
> Use this file to discover all available pages before exploring further.

# 创建 Serverless Endpoint

<Tip>
  首次操作时，请先完成账号的注册、实名认证和账户充值。详情请参见[新手指引](/support/quickstart)。
</Tip>

本文以部署一个 **ComfyUI:SD3** 为例，介绍如何创建一个 Serverless Endpoint。

## 1. 准备容器镜像

您需要提前将运行环境打包成 Docker 镜像，并上传至镜像仓库。支持指定**公共镜像仓库地址**和**私有镜像仓库地址**（需提供镜像仓库认证凭证）。

* 您可以将镜像上传至 Docker Hub，目前平台已针对该站点提供加速服务。详情请参见[使用加速服务](/gpu/accelerate)。
* 您也可以将镜像上传至平台的私有镜像仓库，以便统一管理镜像。详情请参见[管理容器镜像](/gpu/manage-docker-image)。

本示例使用 ComfyUI:SD3 模型镜像：image.ppinfra.com/prod-gpucloudpublic/comfyui:sd3，您可以直接使用该镜像地址。

## 2. 选择实例规格

目前 Serverless Endpoint 仅支持以下两种 GPU 实例规格：

* RTX 4090 24GB
* RTX 3090 24GB

<Tip>
  如有更多需求，请<a href="https://ppio.com/contact" target="_blank">联系我们</a>。
</Tip>

## 3. 创建云存储（可选）

如果有共享存储和持久化存储的需求，可以在[存储管理页面](https://ppio.com/gpu-instance/console/storage)创建云存储，然后在创建实例时为容器挂载云存储。详情请参见[管理云存储](/gpu/manage-cloud-storage)。

## 4.创建 Endpoint

1. 进入[Serverless GPUs 页面](https://ppio.com/gpu-instance/console/serverless)，选择规格，单击「创建 Endpoint」。
2. 完成 Endpoint 的参数配置。

* **Endpoint 名称**：用于标识 Endpoint。系统会自动生成一个默认名称，支持自定义。

* **应用名称**：应用名称是 Endpoint URL 的组成部分，默认为 Endpoint ID，支持自定义（仅支持小写字母、数字和 - ）。

* **Worker 配置**

  | **配置项**           | **说明**                                                                                                    |
  | ----------------- | --------------------------------------------------------------------------------------------------------- |
  | **最小 Worker 数**   | Endpoint 最少需要保留的实例数。设置最小实例数可以帮助减少冷启动时间。如果设置为0，则服务没有请求时不会保留任何实例，这可能会导致无法快速响应后续的请求，因此对于响应时间要求较高的场景，请谨慎设置为0。 |
  | **最大 Worker 数**   | Endpoint 最大可以扩展的实例数。当服务请求增加，触发自动扩容机制时，会增加 Worker 数，因此限制最大 Worker 数可以帮助控制成本。                               |
  | **空闲超时（秒）**       | 当触发自动缩容机制而准备释放 Worker 时，在指定的时间内（即空闲超时），平台会为您保留该 Worker ，以便快速应对后续可能上涨的请求量。请注意，平台会收取这段时间对应的 Worker 费用。      |
  | **最大并发数**         | 每个 Worker 能处理的请求最大并发数，当并发数超过最大值时，会将请求调度到其他 Worker 上。如果所有 Worker 并发都被打满，则会将请求存放到队列中等待被执行。                  |
  | **GPUs / Worker** | 每个 Worker 占用的 GPU 卡数。                                                                                     |
  | **CUDA 版本**       | 支持指定 CUDA 版本。                                                                                             |

* **弹性策略**

  * **队列延迟策略**：根据队列中请求的等待时间调整 Worker 数量。此时您需要配置**队列等待时间**，当队列中请求的等待时间超过该值时，会触发自动扩容，小于该值时，会触发自动缩容。
  * **队列请求数策略**：根据队列中的请求数调整 Worker 数量。此时您需要配置**队列最大请求数**，当队列中的请求数超过该值时，会触发自动扩容，小于该值时，会触发自动缩容。

  <Tip>
    缩容时，系统会自动结合**空闲超时**来决定 Worker 具体的释放时间。
  </Tip>

* **镜像配置**

  * **镜像地址**：要部署的镜像的地址。例如 `vllm/vllm-openai:latest`。
  * **镜像仓库凭证**：如果指定的镜像为私有镜像，需要配置镜像仓库访问凭证才能拉取镜像。您可以在[安全凭证管理页面](https://ppio.com/gpu-instance/console/settings)创建凭证。
  * **HTTP 端口**：Worker 对外开放的 HTTP 端口。
  * **容器启动命令**：容器启动时执行的命令。

* **存储配置**

  * **系统盘**：每个 Worker 的 系统盘容量大小。
  * **本地存储**：按需配置本地存储，包括本地盘容量和挂载路径。
  * **云存储**：如果要挂载云存储，请选择云存储。详情请参见[管理云存储](/gpu/manage-cloud-storage)。

* **其他**

  * **健康检查路径**：使用 HTTP 请求方式进行健康检查时，要检测的路径。通过判断返回的状态码是否为 200 来决定是否将请求转发到该 Worker 上。
  * **环境变量**：设置服务所需的环境变量，以便在 Worker 启动时自动初始化。
    示例如下：
    * `HUGGING_FACE_HUB_TOKEN={您在 Hugging Face 上的 Access Token（有读权限）}`
    * `HTTP_PROXY=http://172.17.0.1:1081`
    * ` HTTPS_PROXY=http://172.17.0.1:1081`

3. 确认费用信息，单击「一键部署」。

## 5.访问服务

1. [Serverless GPUs 页面](https://ppio.com/gpu-instance/console/serverless)，找到新创建的 Endpoint，确认状态已变为服务中。
2. 确认 Endpoint 中至少有一个 Worker 处于运行中。
3. 复制 URL，使用`curl`命令访问部署好的服务。
