功能特性
- 按需付费 仅需为 GPU 容器实例的实际运行时长付费,按秒计费,避免资源闲置,有效降低成本。
- 秒级启动 通过 GPU 容器实例保留、镜像预热以及高性能硬件等技术,能实现秒级冷启动,从容应对流量高峰。
- 弹性伸缩 支持弹性伸缩能力,可以在业务流量高峰期自动快速扩容,流量低谷期自动缩容。在保证服务稳定性的同时,尽可能为您节省成本。
- 负载均衡 内置高效负载均衡算法,确保请求均匀分布到各 GPU 容器实例。
- 实时日志 提供完整的日志功能,支持查询实时日志流,帮助您快速发现并解决潜在问题。
产品架构
一个 Serverless Endpoint 包含了多个Worker,以及弹性伸缩器、负载均衡器等组件,并且可以对外提供 URL 访问。- Worker:用于处理具体请求的 GPU 容器实例,一个 Worker 对应一个 GPU 容器实例。
- 弹性伸缩器:基于配置的弹性策略进行弹性伸缩,在流量高峰时自动扩容,流量低谷时自动缩容。
- 负载均衡器:自动进行健康检查和负载均衡,确保请求均匀分布到 Worker。