监控指标说明

GPU监控2.0基于Exporter+Prometheus+Grafana体系打造更为丰富的GPU可观性场景,支持您基于容器服务开发的GPU Exporter监控指标构建Grafana大盘。本文介绍GPU监控2.0指标的详细信息。指标说明 GPU监控2.0使用的GPU Exporter在兼容开源DCGM ...

KillSparkJob

调用KillSparkJob强行停止一个运行中的Spark作业。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String...

部署LAMP环境(Ubuntu)

本文介绍如何在Ubuntu操作系统的轻量应用服务器实例内部署LAMP环境。说明 如果您还没创建轻量应用服务器,建议您直接通过LAMP应用镜像快速搭建LAMP环境。具体操作,请参见 搭建LAMP开发环境(通过应用镜像)。如果您需要在Alibaba Cloud ...

停止命令

您可以通过客户端工具停止训练任务。本文介绍停止任务相关的命令详情,包括调用格式、参数解释及使用示例。停止训练任务(stop)功能 用于停止正在运行或正在创建的任务。如果停止已经处于停止或结束状态的任务,则系统返回告警信息。格式....

功能特性

当探测到后端服务器运行状况不佳时,会停止向其发送流量,然后将流量转发给其他正常运行的后端服务器。✔ ✔ 会话保持 CLB 提供会话保持功能。在会话的生命周期内,可以将同一客户端的请求转发到同一台后端服务器上。✔ ✔ 访问控制 CLB ...

实例命名规则

命名规则 阿里云云服务器ECS提供了多种实例规格族,一种实例规格族又包括多个实例规格。其中,实例规格族名称格式为 ecs.<规格族>,实例规格名称为 ecs.<规格族>.<nx>large。实例具体命名含义如下所示:ecs:云服务器ECS的产品代号。规格...

手动搭建LAMP开发环境(Alibaba Cloud Linux/CentOS 7...

本文介绍如何在Alibaba Cloud Linux 3/2、CentOS 7.x操作系统的轻量应用服务器实例内部署LAMP环境。说明 如果您还没创建轻量应用服务器,建议您直接通过LAMP应用镜像快速搭建LAMP环境。具体操作,请参见 搭建LAMP开发环境(通过应用镜像)...

StopReplicationJob-停止一个迁移任务

调用StopReplicationJob停止一个迁移任务。接口说明 您只能使用该 API 停止正在运行中(Running)且处于同步中(Syncing)状态的迁移任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI ...

资产指纹调查

安全中心提供资产指纹调查功能,支持采集服务器资产的11种资产指纹数据。本文介绍如何使用资产指纹调查功能采集及查看服务器的资产指纹数据。背景信息 首次使用资产指纹调查功能时,建议您通过设置资产指纹的采集频率,自动采集您所有...

算法组件常见问题

Designer算法支持哪些MaxCompute数据类型的字段 x13-auto-arima组件运行报错 Doc2Vec组件运行报错CallExecutorToParseTaskFail 如何将运行画布节点输出的临时表数据进行持久化存储?运行组件报错:提示没有MaxCompute操作权限 使用组件列...

导入自定义镜像

上部署业务时,您可以通过阿里ECS控制台导入本地镜像文件,也可以通过服务器迁移中心SMC自动为您的服务器生成ECS镜像。本文介绍这两种方法的应用场景和操作步骤。前提条件 通过ECS控制台导入镜像前,请您确认已完成以下操作:阿里...

应用白名单

安全中心支持应用白名单的功能,可防止您服务器上有未经过认证或授权的程序运行,为您提供可信的资产运行环境。本文介绍如何使用应用白名单功能。使用前须知 应用白名单为公测功能,目前已不再支持申请该功能。已申请并正在使用中的用户...

Designer中GPU服务器及对应算法组件下线

Designer中GPU服务器及对应算法组件下线,后续可使用原生版本 停止服务内容 因当前提供服务的V100、P100服务器集群即将过保,PAI将在2024年3月1日正式下线Designer中的TensorFlow(GPU)、MXNet、PyTorch算法组件。您后续可继续使用原生...

使用共享GPU调度(eGPU)

索引 前提条件 步骤一:开启GPU共享调度能力 步骤二:使用GPU共享资源 步骤三:运行共享GPU示例 常见问题 前提条件 已创建ACK灵骏托管版集群,并且集群带有GPU的灵骏节点。具体操作,请参见 创建带有ACK的灵骏集群服务。说明 ACK灵骏托管版...

管理快照

快照是某一时间点磁盘数据状态的备份文件,常用于日常数据备份、服务器数据误操作恢复、网络攻击恢复、制作自定义镜像等...创建完成的自定义镜像可用于共享到云服务器ECS或者创建相同配置的轻量应用服务器。更多信息,请参见 自定义镜像概述。

实例启动/停止异常常见问题

当ECS实例一直处于运行中或关机中,无法使用SSH或Workbench连接。此时可能是因为ECS的操作系统处于启动或关机中,比如持续了5分钟以上。您可以通过本文,排查实例的操作系统是正常运行还是已经无法正常启动或关机。实例一直处于启动中 问题...

什么是云服务器ECS

云服务器ECS(Elastic Compute Service)是阿里提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效...

安装CUDA

如果您想要在GPU云服务器上进行GPU加速计算任务(例如科学计算或大规模并行计算等),则需要安装CUDA开发运行环境。CUDA提供了一整套工具和库,可以帮助您进行GPU加速的程序开发,以充分发挥NVIDIA GPU的计算潜力,提高计算性能和加速运行...

Databricks Runtime

Databricks Runtimes是在Databricks集群上运行的一组核心组件。Databricks提供了几种类型的Runtime。Databricks Runtime Databricks Runtime包括Apache Spark,但还添加了许多组件和更新,这些组件和更新极大地提高了大数据分析的可用性,...

镜像商品的版本管理

可以不做设置,不设置代表该镜像运行可以支持1核及以上GPU云服务器 内存配置 不做设置 0.5 GiB – 1024 GiB 可以不做设置,不设置代表该镜像部署和运行可以支持0.5GiB及以上内存的云服务器 VPC专有网络是否支持多网卡 支持 支持和不支持...

创建弹性裸金属服务器实例

背景信息 创建弹性裸金属服务器实例和创建普通云服务器实例的步骤类似,本文仅介绍弹性裸金属特有的基本配置项,如果您想了解其他通用配置,请参见 自定义购买实例。操作步骤 登录 ECS管理控制台。在左侧导航栏,选择 实例与镜像>实例。...

Designer计费说明

后付费(按量计费)停止运行组件。深度学习组件 计费主体 计费规则 计费方式 停止计费 组件运行时长。(即将下线)按购买的机型和时长计费。预付费(包年包月)不涉及 按组件运行消耗的实际资源计费。后付费(按量计费)停止运行组件。算法...

停止实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍停止ECS实例,以及VPC内实例节省停机模式相关操作。前提条件 实例必须处于 运行中 状态。警告 停止实例会中断您的业务,请谨慎执行。停止包年包月实例 说明...

共享GPU调度概述

视频介绍 背景介绍 阿里 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里、AWS、GCE和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。...

如何选用云服务器

在阿里电子政务上,云服务器有很多不同的规格型号,例如都是4核8G内存的云服务器,在不同应用场景下的性能跑分不同,价格也不同。本文为您介绍阿里云服务的常见参数类别,帮助您根据不同的业务需求选择合适的云服务。云服务器参数...

访问ECS实例异常时的问题排查和指引

所有服务器访问目标服务器均存在异常 如果所有服务器访问目标服务器均存在异常,则推断是目标服务器归属安全组或服务器内部自身存在异常所致,需要做进一步排查分析查看服务器内部访问是否正常,即通过 使用管理终端连接Linux实例 登录...

自动恢复服务

服务或脚本在运行过程中可能会因程序异常、服务器重启、掉电等情况而停止运行,如果不能及时恢复运行,会给线上业务造成损失。您可以通过助手插件 ecs-tool-servicekeepalive,使服务或脚本在被中断时快速恢复运行,保障服务的可靠性和...

使用AIACC-Training MXNet版

bin/sh let GPU=OMPI_COMM_WORLD_RANK%OMPI_COMM_WORLD_LOCAL_SIZE export OMP_NUM_THREADS=4 MXNET_VISIBLE_DEVICE=$GPU python train_imagenet.py \-network resnet \-num-layers 50 \-kv-store dist_sync_perseus \-gpus$GPU…执行如下...

计算资源优化

GPU 云服务器 EGS(Elastic GPU Service):GPU云服务器是基于GPU与CPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势,特别是在浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。GPU的功能特性如下:...

离线异步任务场景

本文介绍什么是GPU离线异步任务场景和如何使用函数计算GPU异步调用、异步有状态调用服务离线AI推理、离线AI训练、离线GPU加速场景,以及如何基于非Web Server模式的Custom Container满足离线GPU应用场景。场景介绍 在离线异步应用场景中,...

AIGC文本生成视频

本文介绍如何使用GPU云服务器搭建Stable Diffusion模型,并基于ModelScope框架,实现使用文本生成视频。背景信息 自多态模型GPT-4发布后,AIGC(AI Generated Content,AI生成内容)时代正扑面而来,从单一的文字文本,演化到更丰富的图片...

利用DCGM实现GPU的性能分析

NVIDIA GPU上存在一些硬件计数,这些计数可以用来收集一些设备级别的性能指标,例如GPU利用率、内存使用情况等。借助NVIDIA提供的NVML(NVIDIA Management Library)库或DCGM(Data Center GPU Manager)工具能够查询这些硬件层提供的...

Kubernetes集群的GPU问题诊断

详细信息 信息收集 请根据如下操作步骤,下载并运行诊断脚本,然后根据生成报告确认问题根源,最后请保存好日志文件。下载诊断脚本 在Master节点上使用如下命令下载诊断脚本。curl-o/usr/local/bin/diagnose_gpu.sh ...

Windows实例中Windows Update自动更新相关配置说明

阿里WSUS更新服务器的介绍 阿里Windows实例的默认组策略配置中,更新源为阿里内部的Windows WSUS更新服务器,而非微软官方的Internet Windows Update服务器。这是因为在极个别情况下,安全更新可能会带来潜在问题。为了预防发生此类...

如何为Linux服务器安装GRUB?

通过服务器迁移中心SMC迁移Linux源服务器时,若Linux源服务器未安装GRUB、系统版本较低(如CentOS 5和Debian 7)、自带的系统引导程序GRUB(GRand Unified Bootloader)版本低于2.02,日志文件提示Do Grub Failed时,您需要安装GRUB的2.02...

上云须知

GPU云服务器 是基于GPU应用的计算服务,多适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景。网络规划 容器集群基础设施(云服务器 ECS)的网络类型选择:专有网络VPC或经典网络。专有网络VPC:推荐使用。采用二层隔离,相对...

通过Docker安装并使用cGPU服务

该服务作为阿里容器服务Kubernetes版ACK(Container Service for Kubernetes)的组件对外提供服务,本文介绍如何通过Docker安装并使用cGPU服务。前提条件 在进行本操作前,请确保GPU实例满足以下要求:GPU实例规格为gn7i、gn6i、gn6v、gn...

停止实例

本文介绍如何停止ECS实例,以及如何开启VPC内实例节省停机模式。注意事项 停止实例会中断您的业务,请谨慎执行。...相关文档 停止一台运行中(Running)的ECS实例:StopInstance 停止一台或多台运行中(Running)的ECS实例:StopInstances

安装共享GPU调度组件

ACK Pro集群的实例规格架构设置为 GPU云服务器。其他配置,请参见 创建ACK集群Pro版。已获取集群KubeConfig并通过kubectl工具连接集群。使用限制 请勿将共享GPU调度的节点的CPU Policy设置为 static。cGPU服务的隔离功能不支持以UVM的方式...

PAI-TF日志查看方式

警告 公共云GPU服务器即将过保下线,您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练,请前往DLC提交任务,具体操作请参见 创建训练任务。无论以何种方式提交PAI-TF任务,都可以得到如下图所示的日志。序号 描述 ① 该...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS GPU云服务器 负载均衡 轻量应用服务器 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用