计费

如何查看 GPU 容器实例的价格?

您可以在价格计算器页面查看 GPU 实例的价格及其配置项(系统盘、云存储等)费用。
算力市场显示的为参考价格,具体以控制台实际下单结果为准。

GPU 容器实例从什么时候开始计费?

从实例拉取镜像阶段开始计费。

实例

实例停止后为什么无法再开机?

停止实例后,实例所属资源会被释放,如果实例所属资源已被抢占,则会造成无法再开机的情况。如果实例本地盘没有数据,您可以基于该实例保存镜像,然后基于保存的镜像来创建新的实例。
保存实例镜像后,系统盘的数据会随镜像被一起保存,而本地盘的数据不会。对于持久性要求比较高的数据,建议使用云存储保存。

实例状态异常,如何处理?

请先查看日志和错误信息,然后根据日志和报错进行处理。如果无法解决,可联系我们

如何查看实例的显卡使用情况?

由于 Docker 容器的 PID 隔离限制,无法使用 nvidia-smi 命令查看进程。您可以安装 py3nvml 库,通过 Python 脚本查看进程占用显卡情况:
# 安装 py3nvml 库
$ pip install py3nvml
# 查看显卡使用情况
$ (base) root@ab9beba1ecf*****:~# py3smi
Fri Sep 20 12:17:39 2024
+-----------------------------------------------------------------------------+
| NVIDIA-SMI                        Driver Version: 550.54.14                 |
+---------------------------------+---------------------+---------------------+
| GPU Fan  Temp Perf Pwr:Usage/Cap|        Memory-Usage | GPU-Util Compute M. |
+=================================+=====================+=====================+
|   5 35%   28C    8   11W / 450W |   353MiB / 24564MiB |       0%    Default |
+---------------------------------+---------------------+---------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
| GPU        Owner      PID      Uptime  Process Name                   Usage |
+=============================================================================+
+-----------------------------------------------------------------------------+
具体安装及详细使用方法,请参考py3nvml 库官方文档

容器

容器内如何启动加速?

进入容器后,运行source /etc/proxy/net_proxy即可启动加速。

容器运行时显存不足,如何处理?

一般是由于模型过大,无法加载导致 OOM。请确认显存使用情况。

在新的宿主机上拉起容器时,容器启动速度慢,怎么办?

联系我们提前预热镜像到节点,以节约镜像拉取耗时,加快容器启动。

镜像

是否支持自定义镜像?

支持。在创建和升级实例时,可以指定自定义镜像。如果镜像存放在私有镜像仓库,您需要提供镜像仓库认证凭证才可以拉取。

保存镜像失败,怎么办?

任务管理页面,找到对应的保存镜像任务,您可以通过查看日志来确认问题。 一般出现此问题是由于镜像仓库认证有误。如果要保存镜像到指定的私有镜像仓库,需要提供该仓库的认证信息,您可以在安全凭证管理页面添加和确认镜像仓库认证信息。 如果无法解决,可联系我们

官方模板不符合要求,怎么办?

您可以自行构建镜像或者直接使用 NVIDIA、DockerHub 的官方镜像。如需更多支持,也可以联系我们

CUDA

没有符合要求的 CUDA 版本,怎么办?

CUDA 版本向前兼容。例如,如果您的服务依赖 12.1 版本的 CUDA,可以选择带有大于或等于 12.1 版本 CUDA 的实例规格。

如何查看平台支持的最大 CUDA 版本?

您可以在算力市场页面,通过「支持CUDA版本」下拉列表确认支持的 CUDA 版本信息。

网络

如何配置端口映射?

  • 创建实例时,可以配置对外 HTTP 端口和 TCP 端口。
  • 对于已有实例,支持修改对外 HTTP 端口和 TCP 端口。

能否支持独享 IP /独享带宽/专线?

可以支持。目前平台暂未对外开放这个能力。如有需求,请联系我们

SSH 连接

实例处于运行中,为什么无法看到 SSH 登录信息?

一般是由于容器发生 OOMkilled,不影响运行。您可以先通过 Web Terminal 进入容器。

基于 SSH 连接的 VS Code 无法使用/连接不稳定/连接时间太短,怎么办?

建议在容器中安装标准 sshd。 当前派欧云平台提供的官方模板已经默认安装。如果是私有镜像,需自行安装 sshd 并配置 22 端口映射。

为什么要安装标准 sshd?为什么不能直接使用控制台密码、PublicKey?

当前平台为了保证平台能力不侵入用户容器,SSH 和 Web Terminal 是用一个 Sidecar 方式提供登录能力,所以容器中并没有真正启动 sshd 服务。您可以后续在容器中配置启动 sshd,两者之间并不冲突。

如何安装标准 sshd?

  1. 创建 GPU 容器实例修改实例配置时,在「对外 TCP 端口」处配置 22 端口。
  2. 通过 SSH 或 Web Terminal 远程连接实例
  3. 参考执行以下命令,安装标准 sshd。 当前仅支持Ubuntu。
    # 安装 SSH 服务
    apt update && apt install openssh-server -y
    
    # 开启远程访问
    sed -i 's/#PermitRootLogin.*/PermitRootLogin yes/'/etc/ssh/sshd_config
    
    # 开启 SFTP 服务
    sed -i 's|Subsystem\s\+sftp\s\+/usr/lib/openssh/sftp-server|Subsystem sftp internal-sftp|' /etc/ssh/sshd_config
    
    # 启动(重启) SSH 服务
    service ssh restart
    
    # 设置 SSH 服务开机自启动
    echo "service ssh start" >> /root/.bashrc
    
    # 修改 root 密码
    passwd
    
    # 使用其他用户登录
    # 添加用户
    # useradd test
    # 修改用户密码
    # echo "test:654321" | chpasswd
    

是否适配 SFTP / SCP?

当前派欧云平台的 SSH 是通过 Sidecar 的方式支持的,容器中无需安装 SSH,但是兼容性可能存在差异。如需使用 SFTP / SCP,优先推荐安装标准 sshd。

如何使用 SCP 上传文件到实例中?

  1. 创建 GPU 容器实例修改实例配置时,在「对外 TCP 端口」处配置 22 端口。
  2. 远程连接实例,然后重置实例密码。
    1. 实例管理页面找到目标实例,单击对应的「连接」。
    2. 启动 Web Terminal 后,单击「连接到 Web Terminal」,然后输入用户名和密码进行登录。 Web Terminal
    3. 执行以下命令重置实例密码。
      passwd root
      
  3. 使用自定义 SSH 服务(如 WinSCP )上传文件。 winscp 登录所需的信息如下:
    • 主机名端口号 实例管理页面找到目标实例,单击对应的「连接」,然后单击「 TCP 端口映射」页签,获取主机名和端口号。 示例如下图所示:主机名为 TCP 端口的 proxy.cn-south-1.gpu-instance.ppinfra.com;端口为 TCP 端口映射的端口号 55089。 tcp
    • 用户名:root
    • 密码:上一步重置的密码
  4. 返回 Web Terminal 窗口,通过 ls 命令查看文件列表,确认文件上传成功。

存储

系统盘、本地盘和云存储有什么差异?

  • 系统盘
    • 不支持动态扩容,只能在创建实例时指定容量。
    • 挂载目录为/(不支持自定义)。
    • 保存镜像时会保存数据。
    • 支持 130GB 的免费额度,超过免费额度后会对超出部分收费。详情请参见系统盘计费说明
  • 本地盘
    • 支持动态扩容。
    • 默认挂载目录为/workspace(可自定义)。
    • 保存镜像时不会保存数据。
    • 读写速度与系统盘一致。
  • 云存储
    • 支持动态扩容。
    • 默认挂载目录为/network(可自定义)。
    • 云存储具有独立的生命周期,即使删除实例,云存储的数据依然存在。
    • 读写速度整体比系统盘或本地盘慢(以具体使用情况为准)。
    • 云存储按照容量和使用时长单独收费。详情请参见云存储计费说明

单个实例是否可以挂载多个云存储?

控制台操作时,单个实例目前智能挂载一个云存储。如果有多目录等复杂结构的需求,可以采用 API 操作。使用 API 创建实例时,可以挂载多个云存储。