监控集群GPU资源最佳实践

集群需安装共享GPU组件(整个集群只安装一次即可),详情请参见 安装并使用共享GPU组件和资源工具。share-mem-core ack.node.gpu.schedule=core_mem 按GPU显存维度申请GPU资源且支持算力申请。aliyun....

排查和处理文件备份客户端状态异常

说明 重新安装服务器操作系统后,文件备份客户端会和备份控制台之间失去联系,造成文件备份客户端在备份控制台显示异常。您重新安装文件备份客户端并注册后,会出现第二台名称相同的文件备份客户端。先停止新文件备份客户端服务。在 ...

应用场景

其中FPGA H.265高清编码、720P节省带宽21.6%,GPU云服务器支持高并发实时视频流5000路以上,并逐步上升到峰值6200路每分钟,且顺利度过洪峰。异构GPU云服务器还参与实时家居渲染图片生成等业务,首次提供了大量算力强劲的ebmgn6v裸金属实例...

使用ACK服务实现GPU的成本优化

GPU云服务器 该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。容器服务ACK 该服务提供了高性能且可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理...

安装Blade

Blade的安装包包括了Wheel包和SDK。在CPU和CUDA环境,您需要安装Wheel包进行模型优化,安装SDK部署模型推理。而在端侧设备中,您只需要安装Wheel包进行模型优化即可,Blade完成优化后直接输出MNN模型,您可以使用MNN部署模型推理。本文详细...

通过OSS URL自定义节点GPU驱动

对于已经安装GPU驱动、NVIDIA Container Runtime等GPU组件的自定义操作系统镜像,ACK无法保证其提供的GPU驱动与ACK其他GPU组件兼容(例如监控组件等),请您自行验证。通过节点池标签指定节点池中GPU节点的驱动版本时,由于安装驱动的过程...

启动实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍如何在ECS管理控制台上启动实例。前提条件 实例满足以下条件之一:实例处于 已停止 状态。按量付费实例处于 已过期 状态,您已经结清欠费账单但自动重开机...

如何在各类服务中安装SSL证书

请根据您的服务器环境,参见 以下不同服务器环境的帮助文档:在Tomcat服务器上安装PFX格式的SSL证书 在Tomcat服务器上安装JKS格式的SSL证书 Tomcat服务器安装SSL证书 CentOS系统Tomcat 8.5或9部署SSL证书 在Apache服务器上安装SSL证书 ...

GPU计算型和GPU虚拟化型实例概述

本文介绍云服务器ECS GPU计算型和GPU虚拟化型实例规格族的特点,并列出了具体的实例规格。推荐 GPU虚拟化型实例规格族sgn7i-vws(共享CPU)GPU虚拟化型实例规格族vgn7i-vws GPU计算型实例规格族gn7e GPU计算型实例规格族gn7i GPU计算型实例...

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里开发的一套推理引擎,具有易用性...

释放实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。当您不再需要某个GPU实例提供服务时,您可以释放该实例,以免产生额外的费用,本文主要介绍释放按量付费实例(包括抢占式实例)和已到期的包年包月实例。前提条件 ...

停止实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍停止ECS实例,以及VPC内实例节省停机模式相关操作。前提条件 实例必须处于 运行中 状态。警告 停止实例会中断您的业务,请谨慎执行。停止包年包月实例 说明...

Tesla或GRID驱动安装指引

GPU实例本身并未配备相关驱动,只有安装了驱动的GPU实例,才能实现计算加速或图形渲染等功能。根据不同GPU实例规格安装与之匹配的Tesla或GRID驱动,...如果GPU实例安装驱动后,在使用过程中遇到黑屏或其他问题,请参见 GPU云服务器常见问题。

已停售的GPU实例规格

实例规格 vCPU 内存(GiB)GPU GPU显存 网络带宽(Gbit/s)网络收发包PPS 多队列(主网卡/辅网卡)弹性网卡 单网卡私有IP ecs.vgn6i-m4.xlarge 4 23 NVIDIA T4*1/4 16GB*1/4 2 50万 4/2 3 10 ecs.vgn6i-m8.2xlarge 10 46 NVIDIA T4*1/2 16...

接入Nvidia GPU监控数据

Nvidia GPU服务器中提供多项监控指标,您可以将Nvidia GPU服务器中的监控指标接入到全栈可观测应用中,进行可视化展示。前提条件 已创建实例。具体操作,请参见 创建实例。步骤一:安装NVIDIA GPU驱动 日志服务 使用 nvidia-smi 命令采集...

重置系统

远程连接服务器安装:具体操作,请参见 安装和卸载监控插件。使用命令助手安装:具体操作,请参见 使用命令助手,安装监控的命令,您可以从 使用命令助手 文档的常用命令中获取。重置系统两种方式简介:重置当前系统:不改变当前镜像,...

GPU调度概述

共享GPU调度 阿里容器服务Kubernetes版ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里、AWS、GCE和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。ACK开源GPU共享...

基本概念

本文汇总使用GPU云服务器过程中涉及的基本概念,方便您查询和了解相关概念。GPU云服务器相关概念 概念 说明 GPU 图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更多的流水线,适合用于大规模并行计算等场景。CUDA ...

产品计费

FPGA云服务器计费相关功能和云服务器ECS一致,本文为您介绍FPGA云服务器的计费信息。计费项及其计费方式 一台FPGA实例包括计算资源(vCPU、内存和GPU)、镜像、块存储等资源,其中涉及计费的FPGA资源如下表所示。计费项 计费说明 计费方式 ...

什么是云服务器ECS

云服务器ECS(Elastic Compute Service)是阿里提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效...

如何在轻量应用服务器安装应用或软件

概述 本文主要介绍如何在轻量应用服务器安装应用或软件。详细信息 阿里提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,...

配置共享GPU调度cGPU算力调度策略

步骤一:查看是否已安装共享GPU组件 配置共享GPU算力分配策略时,未安装共享GPU组件和已安装共享GPU组件的操作方式不同,因此需要您确认集群是否已安装共享GPU组件。登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,...

导入镜像流程

您可以将本地或其他厂商服务器的镜像文件导入阿里生成自定义镜像,然后使用导入的自定义镜像创建新的ECS实例或者更换已有ECS实例的操作系统(系统盘),以满足各种业务需求和应用场景。本文介绍Linux镜像和Windows镜像的导入流程。...

最佳实践概览

源服务器迁移至轻量应用服务器 服务器迁移中心支持将其他厂商轻量服务器(腾讯轻量应用服务器、AWS Lightsail Instance和华为云云耀云服务器)迁移至阿里轻量应用服务器。高可用架构 轻量应用负载均衡可以将公网访问的流量分发到后端的...

实例FAQ

本章节汇总了使用云服务器ECS实例时的常见问题。购买实例问题 如何查看某个地域或可用区是否能购买实例?购买实例时,资源已经售罄怎么办?如何选择适合我业务的ECS实例?购买ECS实例如何付款?开通一台云服务器需要多久?购买实例付款成功...

安装AIACC-Training

前提条件 已创建阿里云GPU实例,且GPU实例需满足以下要求:操作系统为Alibaba Cloud Linux、CentOS 7.x或Ubuntu 16.04以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。背景信息 本文以安装AIACC-Training 1.5.0版本为例,您可以根据...

重置轻量应用服务器的密码后未生效

不同操作系统的服务器管理员用户名信息不同,具体说明如下:Linux系统:服务器管理员用户名为 root。Windows系统:服务器管理员用户名为 Administrator。解决方案 您可以根据实际情况,参考以下操作排查。如果需要进行数据变更或重启实例等...

如何为Linux服务器安装GRUB?

通过服务器迁移中心SMC迁移Linux源服务器时,若Linux源服务器安装GRUB、系统版本较低(如CentOS 5和Debian 7)、自带的系统引导程序GRUB(GRand Unified Bootloader)版本低于2.02,日志文件提示Do Grub Failed时,您需要安装GRUB的2.02...

出错提示M11源系统迁移准备出错

问题原因 源系统迁移准备出错,可能原因如下:待迁移的源服务器系统安装迁移工具出错 待迁移的源服务器系统下载迁移工具脚本出错 解决方案 您可以根据出错提示信息,选择对应的解决方案:出错提示“failed to install centos2alinux/centos...

Windows实例的终端服务器配置异常导致无法远程登录...

问题原因 该问题一般是由于在服务器安装配置了终端服务器,但是没有配置有效的访问授权。解决方案 方案一 注册有效的终端服务器访问授权,并进行相应的访问授权配置。相关配置方法请参见 终端服务器授权。方案二 删除终端服务器角色配置...

安装WAF客户端

混合 Web应用防火墙(Web Application Firewall,简称WAF)防护集群使用您的本地服务器作为WAF本地防护节点。在部署混合WAF集群前,您必须在要添加为集群节点的本地服务器安装WAF客户端(vagent)。本文介绍了在本地服务器安装和...

ACK专有版集群迁移至ACK集群Pro版后升级共享GPU组件

ACK专有版集群 安装的共享GPU组件在 ACK集群Pro版 中无法正常使用,需在 ACK集群Pro版 中升级相关组件,以实现GPU的调度和隔离。本文介绍如何在 ACK集群Pro版 中升级共享GPU组件。前提条件 已将 ACK专有版集群 迁移至 ACK集群Pro版 中,且...

搭建FTP服务器(Linux)

vsftpd(very secure FTP daemon)是Linux操作系统下的一款小巧轻快、安全易用的FTP服务器软件。本文介绍如何在Linux服务器安装、配置vsftpd,并测试连接FTP服务器。前提条件 已创建Linux轻量应用服务器。具体操作,请参见 创建轻量应用...

出错提示SourceServer.ImportError导入超时

当迁移源类型是 阿里ECS云服务器 类型时 源服务器系统没有安装云助手,或者助手没有正常运行。解决方案 当迁移源类型是 物理机/虚拟机/云服务器 类型时 检查源服务器系统是否有公网访问能力,比如检查是否能访问 ...

通过Docker安装并使用cGPU服务

该服务作为阿里容器服务Kubernetes版ACK(Container Service for Kubernetes)的组件对外提供服务,本文介绍如何通过Docker安装并使用cGPU服务。前提条件 在进行本操作前,请确保GPU实例满足以下要求:GPU实例规格为gn7i、gn6i、gn6v、gn...

部署高可用架构应用集群

步骤四:修改数据库服务器中数据库的权限 当前已成功创建两台应用服务器服务器A 与 服务器B),为确保应用服务器与数据库服务器进行数据传输时的安全性,建议您将数据库服务器C中的MySQL访问权限,由 所有人 修改 指定IP,并指向两台应用...

MySQL如何设置不区分表名大小写

详细信息 一般情况Linux服务器默认安装MySQL的数据库表名是区分大小写的,如果ECS上安装的MySQL不支持表名区分大小写,则按照如下方法操作即可。使用root登录,修改/etc/my.cnf 文件,在[mysqld]节点下,加入一行 lower_case_table_names=1...

手动升级GPU节点驱动

如果您使用的CUDA库需要匹配更高版本的NVIDIA驱动,请升级节点的NVIDIA驱动,即卸载旧版本驱动,然后安装新版本驱动。本文介绍如何手动升级GPU节点驱动。前提条件 获取集群KubeConfig并通过kubectl工具连接集群 操作步骤 步骤一:下线 节点...

实例命名规则

命名规则 阿里云云服务器ECS提供了多种实例规格族,一种实例规格族又包括多个实例规格。其中,实例规格族名称格式为 ecs.<规格族>,实例规格名称为 ecs.<规格族>.<nx>large。实例具体命名含义如下所示:ecs:云服务器ECS的产品代号。规格...

安装virtio驱动

为避免部分服务器、虚拟机或者主机的操作系统在导入镜像文件后,创建的ECS实例无法启动,您需要在导入镜像文件前在源服务器安装virtio驱动。您可以按照本文操作通过安装包为Windows系统安装virtio驱动。操作步骤 在源服务器上下载阿里...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 云服务器 ECS 轻量应用服务器 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用