创建 Serverless Endpoint

首次操作时，请先完成账号的注册、实名认证和账户充值。详情请参见新手指引。

本文以部署一个 ComfyUI:SD3 为例，介绍如何创建一个 Serverless Endpoint。

1. 准备容器镜像

您需要提前将运行环境打包成 Docker 镜像，并上传至镜像仓库。支持指定公共镜像仓库地址和私有镜像仓库地址（需提供镜像仓库认证凭证）。

您可以将镜像上传至 Docker Hub，目前平台已针对该站点提供加速服务。详情请参见使用加速服务。
您也可以将镜像上传至平台的私有镜像仓库，以便统一管理镜像。详情请参见管理容器镜像。

本示例使用 ComfyUI:SD3 模型镜像：image.ppinfra.com/prod-gpucloudpublic/comfyui:sd3，您可以直接使用该镜像地址。

2. 选择实例规格

目前 Serverless Endpoint 仅支持以下两种 GPU 实例规格：

RTX 4090 24GB
RTX 3090 24GB

如有更多需求，请联系我们。

3. 创建云存储（可选）

如果有共享存储和持久化存储的需求，可以在存储管理页面创建云存储，然后在创建实例时为容器挂载云存储。详情请参见管理云存储。

4.创建 Endpoint

进入Serverless GPUs 页面，选择规格，单击「创建 Endpoint」。
完成 Endpoint 的参数配置。

Endpoint 名称：用于标识 Endpoint。系统会自动生成一个默认名称，支持自定义。
应用名称：应用名称是 Endpoint URL 的组成部分，默认为 Endpoint ID，支持自定义（仅支持小写字母、数字和 - ）。

Worker 配置

配置项	说明
最小 Worker 数	Endpoint 最少需要保留的实例数。设置最小实例数可以帮助减少冷启动时间。如果设置为0，则服务没有请求时不会保留任何实例，这可能会导致无法快速响应后续的请求，因此对于响应时间要求较高的场景，请谨慎设置为0。
最大 Worker 数	Endpoint 最大可以扩展的实例数。当服务请求增加，触发自动扩容机制时，会增加 Worker 数，因此限制最大 Worker 数可以帮助控制成本。
空闲超时（秒）	当触发自动缩容机制而准备释放 Worker 时，在指定的时间内（即空闲超时），平台会为您保留该 Worker ，以便快速应对后续可能上涨的请求量。请注意，平台会收取这段时间对应的 Worker 费用。
最大并发数	每个 Worker 能处理的请求最大并发数，当并发数超过最大值时，会将请求调度到其他 Worker 上。如果所有 Worker 并发都被打满，则会将请求存放到队列中等待被执行。
GPUs / Worker	每个 Worker 占用的 GPU 卡数。
CUDA 版本	支持指定 CUDA 版本。

弹性策略
- 队列延迟策略：根据队列中请求的等待时间调整 Worker 数量。此时您需要配置队列等待时间，当队列中请求的等待时间超过该值时，会触发自动扩容，小于该值时，会触发自动缩容。
- 队列请求数策略：根据队列中的请求数调整 Worker 数量。此时您需要配置队列最大请求数，当队列中的请求数超过该值时，会触发自动扩容，小于该值时，会触发自动缩容。
缩容时，系统会自动结合空闲超时来决定 Worker 具体的释放时间。
镜像配置
- 镜像地址：要部署的镜像的地址。例如 vllm/vllm-openai:latest。
- 镜像仓库凭证：如果指定的镜像为私有镜像，需要配置镜像仓库访问凭证才能拉取镜像。您可以在安全凭证管理页面创建凭证。
- HTTP 端口：Worker 对外开放的 HTTP 端口。
- 容器启动命令：容器启动时执行的命令。
存储配置
- 系统盘：每个 Worker 的系统盘容量大小。
- 本地存储：按需配置本地存储，包括本地盘容量和挂载路径。
- 云存储：如果要挂载云存储，请选择云存储。详情请参见管理云存储。
其他
- 健康检查路径：使用 HTTP 请求方式进行健康检查时，要检测的路径。通过判断返回的状态码是否为 200 来决定是否将请求转发到该 Worker 上。
- 环境变量：设置服务所需的环境变量，以便在 Worker 启动时自动初始化。示例如下：
  - HUGGING_FACE_HUB_TOKEN={您在 Hugging Face 上的 Access Token（有读权限）}
  - HTTP_PROXY=http://172.17.0.1:1081
  - HTTPS_PROXY=http://172.17.0.1:1081

确认费用信息，单击「一键部署」。

5.访问服务

Serverless GPUs 页面，找到新创建的 Endpoint，确认状态已变为服务中。
确认 Endpoint 中至少有一个 Worker 处于运行中。
复制 URL，使用curl命令访问部署好的服务。

产品简介

计费说明

操作指南

常见问题

最佳实践

1. 准备容器镜像

2. 选择实例规格

3. 创建云存储（可选）

4.创建 Endpoint

5.访问服务

产品简介

计费说明

操作指南

常见问题

最佳实践

​1. 准备容器镜像

​2. 选择实例规格

​3. 创建云存储（可选）

​4.创建 Endpoint

​5.访问服务

1. 准备容器镜像

2. 选择实例规格

3. 创建云存储（可选）

4.创建 Endpoint

5.访问服务