配置项 | 说明 |
---|---|
最小 Worker 数 | Endpoint 最少需要保留的实例数。设置最小实例数可以帮助减少冷启动时间。如果设置为0,则服务没有请求时不会保留任何实例,这可能会导致无法快速响应后续的请求,因此对于响应时间要求较高的场景,请谨慎设置为0。 |
最大 Worker 数 | Endpoint 最大可以扩展的实例数。当服务请求增加,触发自动扩容机制时,会增加 Worker 数,因此限制最大 Worker 数可以帮助控制成本。 |
空闲超时(秒) | 当触发自动缩容机制而准备释放 Worker 时,在指定的时间内(即空闲超时),平台会为您保留该 Worker ,以便快速应对后续可能上涨的请求量。请注意,平台会收取这段时间对应的 Worker 费用。 |
最大并发数 | 每个 Worker 能处理的请求最大并发数,当并发数超过最大值时,会将请求调度到其他 Worker 上。如果所有 Worker 并发都被打满,则会将请求存放到队列中等待被执行。 |
GPUs / Worker | 每个 Worker 占用的 GPU 卡数。 |
CUDA 版本 | 支持指定 CUDA 版本。 |
vllm/vllm-openai:latest
。HUGGING_FACE_HUB_TOKEN={您在 Hugging Face 上的 Access Token(有读权限)}
HTTP_PROXY=http://172.17.0.1:1081
HTTPS_PROXY=http://172.17.0.1:1081
curl
命令访问部署好的服务。