GPU集群中加速AI模型训练

本文适用于AI图片的训练场景,使用文件存储CPFS/NAS作为共享存储,使用容器服务Kubernetes版管理GPU云服务器集群实现AI图片的训练加速。方案优势 使用阿里的容器服务ACK可快速搭建AI图片训练基础环境。使用CPFS存储训练数据,支持多个...

解决Linux实例磁盘空间满问题

在Linux系统的云服务器ECS实例内创建文件或者应用时出现 No space left on device 报错提示,即表示您的磁盘空间不足。如果磁盘满不符合您的预期使用,可根据本文判断磁盘满的原因并相应解决。说明 如果磁盘满是符合您的预期使用,您可以...

查看服务器信息

关联产品 在该区域,系统会显示 虚拟主机、云服务器ECS和无影电脑的相关信息,单击对应服务名称,可以跳转到对应服务的官网页面。示例:查询流量使用情况 重要 对于每月无固定流量的套餐,不显示流量使用情况。更多信息,请参见 套餐...

云服务使用限制索引

弹性计算 云服务 使用限制 云服务器ECS 使用限制 弹性裸金属服务器 使用限制 FPGA云服务器 使用限制 GPU云服务器 使用限制 存储容量单位包 使用限制 块存储 使用限制 轻量应用服务器 使用限制 专有宿主机 使用限制 批量计算 使用限制 容器...

创建弹性裸金属服务器实例

弹性裸金属服务器(ECS Bare Metal Instance)是基于阿里完全自主研发的下一代虚拟化技术而打造的新型计算类服务器产品,本文主要介绍如何创建弹性裸金属服务器实例。背景信息 创建弹性裸金属服务器实例和创建普通云服务器实例的步骤类似...

管理证书

在配置 ALB 单向认证或双向认证业务时,您需要在阿里证书中心购买证书,或者将所需的第三方签发的服务器证书和CA证书上传至阿里证书中心,ALB 从证书中心获取该证书并使用。背景信息 ALB 支持单向认证和双向认证,请根据您的需要进行...

设置自动空间扩展

数据库自治服务DAS(Database Autonomy Service)为RDS SQL Server 提供自动空间扩展功能,支持检测数据库实例的空间,并在数据库实例空间不足时自动扩展存储空间,保障您的业务稳定运行。前提条件 实例为RDS SQL Server高可用盘版和集群...

处理存储空间不足问题

操作视频 查看空间问题 空间分析:直观地查看某个数据库实例的空间使用概况、空间剩余可用天数,以及数据库中某个表的空间使用情况、空间碎片、空间异常诊断等。优化空间问题 自动空间优化:开启该功能后,数据库实例空间不足时,DAS会自动...

使用ACK服务实现GPU的成本优化

GPU云服务器 该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。容器服务ACK 该服务提供了高性能且可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理...

Windows NTFS文件系统中大量小文件导致空间统计异常...

大量小于1 KB文件占用空间问题 问题描述 如下图所示,Windows系统中从文件统计看占用磁盘空间1.56 MB,共计409,600个小文件,每个文件包含几个字符,容量大约为几个字节,但磁盘显示使用空间已经占用594 MB,两处空间大小统计相差较大。...

神行工具包(DeepGPU)计费

使用神行工具包(DeepGPU)本身不需要额外支付费用,您只需要为执行计算任务过程中使用的阿里资源(例如云服务器ECS或文件存储NAS)进行付费。神行工具包中的组件主要包括 AI训练加速器Deepytorch Training、AI推理加速器Deepytorch ...

管理证书

在配置TCPSSL监听时,您需要在阿里证书中心购买证书,或者将所需的第三方签发的服务器证书和CA证书上传至阿里证书中心,NLB从证书中心获取证书并使用。背景信息 NLB 支持单向认证和双向认证,请根据您的需要进行选择。单向认证:客户端...

管理NLB监听

删除扩展证书 您可以删除不需要的服务器扩展证书,删除后该证书将不再认证后端服务器。在 服务器证书 页签,找到目标扩展证书,在 操作 列单击 删除。在弹出的对话框中,单击 确定删除。CA证书 开启双向认证 单击 CA证书 页签,打开 双向...

使用RAPIDS加速机器学习最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务器 该...

GPU监控

监控通过安装在阿里主机(ECS实例)上的监控插件,采集GPU的监控数据,您还可以为这些监控项设置报警规则。当某个监控项达到报警条件时,会给您发送报警通知,以便您及时关注其动态。前提条件 请确保您已在云服务器ECS上创建GPU计算...

使用RAPIDS加速图像搜索最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速图像搜索环境。使用容器服务Kubernetes版可快速部署图像搜索环境和分发应用。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务...

异构服务型

云服务器ECS异构服务型实例video-trans适用于视频转码、图像与视频内容处理以及帧图像提取等场景。通过本文您可以具体了解该实例的特点以及包含的实例规格和指标数据等。video-trans特点 提供专属硬件资源和物理隔离 高密度转码,例如显示...

开启自治功能

DAS基于机器学习和细粒度的监控数据,实现7 x 24小时的异常检测,提供自动SQL优化,自动SQL限流、存储空间自动扩展、计算资源自动扩展等功能。从异常发现、根因分析、进行止损或优化、效果跟踪、回滚或沉淀知识库,实现诊断流程的闭环,...

DescribeDatabaseInstanceMetricData-查询数据库实例...

接口说明 创建数据库服务后,您可以查看数据库服务的 CPU、内存、磁盘空间和存储 IOPS(Input/Output Operations Per Second)和当前总连接数的详细信息。QPS 限制 本接口的单用户 QPS 限制为 10 次/分钟。超过限制,API 调用会被限流,这...

什么是备份数据量

数据文件空间 数据库所属数据文件在服务器上占用的磁盘空间。备份数据量 备份数据量指通过备份链路的实际数据大小。与数据文件空间不同,备份数据量取决于数据库类型、备份方式、备份粒度等因素。存储数据量 存储数据量指存放存储介质的...

自助诊断GPU节点问题

根据 nvidia-smi 状态排查问题 nvidia-smi(NVIDIA System Management Interface)是一个监测NVIDIA GPU设备状态的命令行实用工具,可以用于管理GPU服务器性能和健康状况。您可以根据检查报告中 NVIDIASMIStatusCode 的结果,参见下表,...

使用VNC登录实例

无法使用Workbench和第三方远程连接工具(例如PuTTY、Xshell、SecureCRT等)连接实例时,您可以通过VNC远程连接方式登录实例,查看云服务器ECS操作界面的实时状态。重要 自2023年7月10日起,远程连接工具VNC无需单独设置VNC登录密码,即可...

绑定和管理证书

替换扩展服务器证书 本操作适用于原扩展证书过期,需替换为新的证书且关联域名不变的场景。在 监听 页签下,找到目标HTTPS协议监听,单击监听ID。在监听详情页面下,单击 证书管理 页签。在 证书管理 页签下的 扩展证书 区域,在目标扩展...

自动空间扩展

PolarDB MySQL版 的标准版 扩容阈值 扩容阈值与数据库实例总存储空间有关,如下所示:总存储空间 扩容阈值 总存储空间可用存储空间总存储空间的30%1 TB≥总存储空间可用存储空间总存储空间的20%10 TB≥总存储空间 可用存储空间总存储空间的...

启动实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍如何在ECS管理控制台上启动实例。前提条件 实例满足以下条件之一:实例处于 已停止 状态。按量付费实例处于 已过期 状态,您已经结清欠费账单但自动重开机...

修改 Windows 实例分区盘符

此文档指导用户如何修改 Windows 服务器磁盘分区盘符。以下操作以 Windows 2008 为例,其他版本的 Windows 操作类似。具体操作步骤如下:启动左下角任务栏中的服务器管理,选择存储>磁盘管理。右击要修改分区盘符的系统分区,在弹出的...

自动空间扩展

功能说明 当数据库实例存在只读实例,且主实例触发自动空间扩展时,系统会自动检查主实例下每个只读实例的存储空间大小,如果只读实例的存储空间小于主实例的扩容目标空间,会先扩容只读实例的存储空间。所有只读实例扩容完成后,再扩容主...

sccgn系列实例使用说明及验证

为进一步优化神龙架构GPU服务器的网络性能,阿里推出了GPU计算型超级计算集群实例规格族,即sccgn系列实例,该系列机型具备了超强的计算能力和网络通信能力。本文为您介绍sccgn系列实例的使用说明及性能验证。使用说明 sccgn系列机型同时...

主机部署

ECS上确认下助手是否正常,重启下助手,具体可以参考:查看执行结果及修复常见问题 如果是助手正常,确认下ECS的磁盘情况是不是磁盘满了,清理下磁盘。如何解决自有主机显示离线?服务器上确认下agent是否在线,如果是离线,则需要...

基本概念

本文汇总使用GPU云服务器过程中涉及的基本概念,方便您查询和了解相关概念。GPU云服务器相关概念 概念 说明 GPU 图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更多的流水线,适合用于大规模并行计算等场景。CUDA ...

与Linux实例磁盘空间相关的常见问题

本文主要介绍与Linux实例磁盘空间相关的常见问题。常见问题 说明 阿里提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,...

停止实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍停止ECS实例,以及VPC内实例节省停机模式相关操作。前提条件 实例必须处于 运行中 状态。警告 停止实例会中断您的业务,请谨慎执行。停止包年包月实例 说明...

设置存储空间自动扩容

不同的盘存储空间上限如下,您可以此范围内进行设置:ESSD盘上限:32000 GB 通用盘上限:64000 GB SSD盘上限:6000 GB 说明 SSD盘已下线,建议升级至 ESSD盘。单击 确认。相关文档 存储空间扩容后,暂不支持自动缩容,如需缩容...

释放实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。当您不再需要某个GPU实例提供服务时,您可以释放该实例,以免产生额外的费用,本文主要介绍释放按量付费实例(包括抢占式实例)和已到期的包年包月实例。前提条件 ...

什么是云服务器ECS

云服务器ECS(Elastic Compute Service)是阿里提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效...

存储自动扩容

数据库自治服务DAS(Database Autonomy Service)为RDS PostgreSQL提供存储自动扩容策略,当数据库实例的已使用存储空间大于等于设置的扩容阈值时,系统会进行自动扩容,保障您的业务稳定运行。前提条件 当前仅支持RDS PostgreSQL盘版。...

自定义镜像概述

您可以通过已配置好的自定义镜像创建更多包含相同配置的轻量应用服务器,也可以将自定义镜像共享至云服务器ECS,进而通过共享镜像创建ECS实例或更换操作系统。自定义镜像生命周期 当您通过服务器快照创建完成自定义镜像后,可以将镜像共享...

服务器迁移至轻量应用服务器

服务器迁移中心支持将其他厂商轻量服务器(腾讯轻量应用服务器、AWS Lightsail Instance和华为云云耀云服务器)、IDC服务器、虚拟机和其他平台的主机迁移至阿里轻量应用服务器。本文介绍如何将其他厂商轻量服务器迁移至轻量应用...

服务器迁移至轻量应用服务器

服务器迁移中心 支持将其他厂商轻量服务器(腾讯轻量应用服务器、AWS Lightsail Instance和华为云云耀云服务器)迁移至阿里 轻量应用服务器。本文介绍如何将其他厂商轻量服务器迁移至轻量应用服务器。前提条件 已导入迁移源信息。您...

管理快照

快照是某一时间点磁盘数据状态的备份文件,常用于日常数据备份、服务器数据误操作恢复、网络攻击恢复、制作自定义镜像等...创建完成的自定义镜像可用于共享到云服务器ECS或者创建相同配置的轻量应用服务器。更多信息,请参见 自定义镜像概述。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS GPU云服务器 负载均衡 轻量应用服务器 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用