GPU FAQ

排查GPU监控常见问题 可用的GPU数目少于实际GPU数目 GPU节点中重启Kubelet和Docker服务异常 修复GPU实例重启或被置换后设备ID变更问题 阿里容器服务是否支持GPU虚拟化型(vGPU)实例?如何在已有集群GPU节点上手动升级Kernel?修复GPU...

GPU集群中加速AI模型训练

本文适用于AI图片的训练场景,使用文件存储CPFS/NAS作为共享存储,使用容器服务Kubernetes版管理GPU云服务器集群实现AI图片的训练加速。方案优势 使用阿里的容器服务ACK可快速搭建AI图片训练基础环境。使用CPFS存储训练数据,支持多个...

ACK集群实现GPU AI模型训练

场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...

Kubernetes集群扩容常见问题的排查及解决方法

概述 本文主要介绍扩容ECS实例到Kubernetes集群常见问题的排查及解决方法。详细信息 阿里提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS、RDS)等进行...

API参考

如果您熟悉网络服务协议和一种以上编程语言,推荐您调用API管理您的上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致,详情请参见 ECS API简介 和 ECS API概览。

注册集群FAQ

本文介绍在使用注册集群时遇到的常见问题解决方法。注册集群是否收费?本地数据中心的Kubernetes集群可以扩容上弹性资源吗?接入注册集群的目标集群对于网络连通性有什么要求?接入注册集群后,控制台节点页面不显示节点的容器组/CPU/...

Serverless常见问题

Serverless集群常见问题 基础概念 Serverless 集群的 PCU 是什么意思?PCU 是 PolarDB Capacity Unit 的缩写。1 PCU 约等于 1核 2GB 内存的标准服务能力。PCU 是 PolarDB Serverless 集群进行资源弹性的管理单位,单次弹性的最小 PCU 单位...

设置集群白名单

创建数据库账号 连接数据库集群 常见问题 已添加ECS的IP地址到IP白名单中,但是还是无法访问。答:确认IP白名单是否正确。如果是通过内网地址访问,需添加ECS的私网IP地址。如果是通过公网地址进行访问,需添加ECS的公网IP地址。确认网络...

设置集群白名单

创建数据库账号 连接数据库集群 常见问题 Q:如何指定服务器只能访问集群中的某个节点?A:使用 自定义集群地址 访问集群,就只能访问集群中的特定节点。Q:IP白名单最多支持填写多少个IP地址?A:IP白名单最多可以填写1000个IP地址或地址...

使用RAPIDS加速机器学习最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务器 该...

删除集群

常见问题 删除集群失败怎么办?如果您在阿里资源编排服务ROS(Resource Orchestration Service)创建的资源下手动添加了一些资源,ROS是没有权限删除这些资源的。例如在ROS创建的VPC下手动添加了一个VSwitch,这样就会导致ROS删除时无法...

使用RAPIDS加速图像搜索最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速图像搜索环境。使用容器服务Kubernetes版可快速部署图像搜索环境和分发应用。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务...

使用ACK服务实现GPU的成本优化

利用阿里容器服务ACK部署GPU集群后,出于成本优化考虑,针对集群中GPU利用率不同的应用,选择不同的成本优化方案,可以实现集群的灵活管理,同时整体降低成本。例如,对于集群中GPU利用率不高的应用(例如推理应用),建议选择cGPU技术将...

常见问题

计费常见问题 集群管理常见问题 组件常见问题:HDFS常见问题 YARN常见问题 Hudi常见问题 Hive常见问题 HBase常见问题 Kudu常见问题 Spark常见问题 Flink常见问题 StarRocks常见问题 Impala常见问题 ClickHouse常见问题 Zookeeper常见问题 ...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

GPU云服务器计费

计费常见问题 如果您在购买或使用GPU云服务器过程中遇到某些计费相关问题,请参见 计费FAQ 或 提交工单 获取帮助。说明 如果您想了解云服务器ECS的成本构成、成本优势以及成本优化建议方案,更多信息,请参见 成本优化最佳实践。

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里开发的一套推理引擎,具有易用性...

产品优势

高可用性 E-HPC集群节点基于云服务器ECS、超级计算集群SCC和GPU云服务器组建,大大提高了集群的可用性。结果可视 E-HPC提供可视化服务功能,您可以通过可视化服务功能将计算结果转换为可读的图形化数据。例如您可以直接观看渲染后的动画...

阿里异构计算产品总览

GPU云服务器 GPU云服务器是基于GPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。作为阿里弹性计算家族的一员,GPU云服务器结合了GPU计算力...

使用FastGPU加速AI训练/推理

选用的产品列表 产品名称 说明 GPU云服务器 该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。对象存储OSS 是一款海量、安全、低成本、高可靠的存储服务,多种存储...

如何解决集群连接失败的问题

本文将介绍使用DMS(Data Management Service)和通用MySQL客户端连接 PolarDB MySQL版 集群失败的问题原因以及解决方法集群白名单未配置或配置有误 问题原因:白名单设置中默认地址为 127.0.0.1,表示禁止任何IP地址访问 PolarDB 集群。...

缩容集群

当E-MapReduce集群的计算资源过剩时,您可以缩减Task节点的数量。前提条件 已在EMR on ECS创建集群,详情请参见 创建集群。...缩容集群相关的问题,详情请参见 集群管理常见问题。API方式,详情请参见 DecreaseNodes-缩容。

什么是神行工具包(DeepGPU)

神行工具包(DeepGPU)是阿里专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力。GPU云服务器搭配神行工具包(DeepGPU)中的组件可以帮助您更方便地利用阿里上GPU资源,...

扩容集群

当E-MapReduce集群计算资源或存储资源不足时,您可以通过水平扩展Core节点、Task节点以及特定版本下的Gateway节点来满足需求。...扩容集群相关的问题,详情请参见 集群管理常见问题。API方式,详情请参见 IncreaseNodes-扩容。

使用VNC登录实例

无法使用Workbench和第三方远程连接工具(例如PuTTY、Xshell、SecureCRT等)连接实例时,您可以通过VNC远程连接方式登录实例,查看云服务器ECS操作界面的实时状态。重要 自2023年7月10日起,远程连接工具VNC无需单独设置VNC登录密码,即可...

删除集群

常见问题 删除集群失败怎么办?如果您在阿里资源编排服务ROS(Resource Orchestration Service)创建的资源下手动添加了一些资源,ROS不具有这些资源的删除权限。例如,如果您在ROS创建的VPC下手动添加了vSwitch,这会导致集群删除时ROS...

什么是GPU云服务器

对比项 GPU云服务器 GPU自建服务器 灵活性 能够快速开通一台或多台GPU云服务器实例。实例规格(vCPU、内存及GPU)支持灵活变更,并且支持在线升降配。带宽升降自由。服务器购买周期长。服务器规格固定,无法灵活变更。带宽一次性购买,无法...

开通EMR Doctor(Hadoop集群类型)

EMR Doctor使用时的问题,请参见 集群管理常见问题。重要 您可以等待任务低峰和维护时间,重启以上三个服务。不重启以上服务也可以使用EMR Doctor功能,只是在此期间部分任务(例如Hive on MR)的采集会缺失部分内容。开通流程 阿里EMR ...

多主集群(库表)常见问题

本文档介绍了在使用多主集群(库表)过程中遇到的问题解决方法。多主集群(库表)产品系列如何购买更多的读写节点?新创建的多主集群(库表)仅包括2个读写节点。要在集群创建成功后,才能继续增加读写节点。增加读写节点的操作请参见 ...

常见问题

本文介绍您在使用 ACK Serverless集群 时可能遇到的常见问题以及解决方案。您在使用 ACK Serverless集群 时如果收到返回的错误信息,可查阅 容器服务ACK错误码 匹配解决方案。如果您没有收到具体的错误信息,可根据以下问题分类匹配问题...

常见问题

产品FAQ 阿里Elasticsearch实例FAQ 计费常见问题 Kibana FAQ Logstash FAQ 访问控制FAQ 客户端访问Elasticsearch FAQ 开源Elasticsearch FAQ API FAQ 常见报错 Elasticsearch问题 自定义插件安装错误的排查与解决方法 集群磁盘使用率过高...

安装GPU拓扑感知调度组件

前提条件 已创建ACK Pro集群,且集群的实例规格类型选择为 GPU云服务器。更多信息,请参见 创建Kubernetes托管版集群。获取集群KubeConfig并通过kubectl工具连接集群。系统组件版本满足以下要求。组件 版本要求 Kubernetes 1.18.8及以上...

创建GPU集群

容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。创建GPU节点...

产品优势

阿里GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式,神行工具包(DeepGPU)是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的优势。...

常见问题FAQ

本文介绍 数据库专属集群MyBase 的常见问题和解答。基本问题 Q:数据库专属集群MyBase 是什么意思?它和RDS数据库的区别是什么?A:数据库专属集群MyBase 是由多台主机(底层服务器,如ECS I2服务器、神龙服务器)组成的集群,详情请...

异构计算产品最佳实践概览

GPU AI模型训练最佳实践 适用于AI图片训练场景,使用CPFS/NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行AI图片训练。在GPU实例上使用RAPIDS加速机器学习任务 在GPU实例上基于NGC环境使用RAPIDS加速库,加速数据科学和...

在ACK专有版集群中使用共享GPU调度

如您需要在 ACK专有版集群 中使用共享GPU调度基础版,请参见...基础版迁移专业版 安装共享GPU调度组件 运行共享GPU调度组件 使用共享GPU调度实现仅共享不隔离能力 使用共享GPU调度实现cGPU算力分配策略 解决专业版集群升级共享GPU调度失效问题

应用场景

GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景,神行工具包(DeepGPU)为了配合GPU云服务器的计算服务增强能力,也适用于所有AI训练场景和AI推理场景。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的...

集群异常状态

ACK会定时检测集群运行状态,如果集群符合特定的异常条件,集群状态将自动变更为“不...关于资源计费的常见问题,例如集群删除中或删除失败时是否会产生计费、集群处于哪些生命周期状态时将不会产生集群管理费用等,请参见 资源计费常见问题

删除集群

常见问题 如何关闭集群删除保护状态?如果集群开启了集群删除保护功能,在删除集群时,页面会提示需先关闭删除保护。您可以执行以下步骤关闭集群删除保护功能:登录 容器服务管理控制台,在左侧导航栏选择 集群。在集群列表的 操作 列,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 云数据库专属集群 云数据库 Redis 版 商标服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用