阿里Prometheus监控

您可以在ACK集群中快速启用 阿里Prometheus,以实时监控集群和容器的健康状况,并查看可视化的Grafana监控数据大盘。您还可按需配置联系人接收监控报警、配置Prometheus抓取自定义的监控指标等。阿里Prometheus 监控介绍 阿里...

E-MapReduce创建失败

问题描述 EMR创建集群失败 问题原因 EMR创建集群失败有多种原因,需具体情况具体分析。以下列举出常见集群创建失败的原因以及对应解决方案,帮助您在集群创建失败时可以通过FAQ来解决部分问题 一、问题:创建集群出现弹窗错误:Your ...

设置白名单

为保障 原生数据仓库 AnalyticDB MySQL 版 集群的安全稳定,系统默认禁止所有地址访问 AnalyticDB for MySQL 集群,因此,在使用 AnalyticDB for MySQL 集群前,需为集群设置白名单,以允许外部设备访问该集群。背景信息 集群默认的白...

部署和使用跨可用区实例

跨可用区部署可提升集群的容灾能力,系统会自动选择库存充足的可用区创建集群。在索引配置了副本的情况下,当某一可用区出现故障时,剩余的可用区依然可以不间断地提供服务,显著增强了集群的可用性。同时,您可以通过控制台的切流操作,将...

设置白名单

为保障 原生数据仓库 AnalyticDB MySQL 版 集群的安全稳定,系统默认禁止所有地址访问 AnalyticDB for MySQL 集群,因此,在使用 AnalyticDB for MySQL 集群前,需为集群设置白名单,以允许外部设备访问该集群。背景信息 集群默认的白...

组复制简介

例如,5个节点的集群,3个节点收到Binlog,2个节点未收到Binlog,此时有2个节点故障:如果故障的2个节点是收到Binlog的节点,那至少还有1个节点上有数据。如果故障的2个节点是没收到Binlog的节点,那至少还有3个节点上有数据。说明 多数派...

节点与节点池FAQ

修复GPU节点容器启动问题 添加Kubernetes集群节点的常见问题 移除节点时提示”drain-node job execute timeout”错误 ACK集群中kubelet目录路径是什么?支持自定义吗?如何更换节点池OS镜像?更换节点池OS镜像的方法与升级节点池的方法一致...

什么是容器报警演练

容器演练是针对Kubernetes集群定制的故障演练,可以对Kubernetes集群中至关重要的高可用特性进行验证。目前AHAS仅支持容器演练中的报警演练。本文主要介绍容器演练中的报警演练功能。报警演练功能概述 Kubernetes集群的自动报警功能是保障...

通过OSS URL自定义节点GPU驱动

不同类型和版本的ACK集群默认安装不同版本的NVIDIA驱动。如果您使用的CUDA库需要匹配更高版本的NVIDIA驱动,需要自定义安装节点的NVIDIA驱动。本文介绍如何基于节点池标签通过OSS URL自定义GPU节点的NVIDIA驱动版本。注意事项 对于GPU驱动...

GPU调度概述

普通GPU调度 申请Kubernetes GPU集群后,通过运行TensorFlow的GPU实验环境,关于如何使用Kubernetes默认调度独占GPU,请参见 使用Kubernetes默认GPU调度。您也可通过使用GPU节点标签自定义调度,具体操作,请参见 使用节点标签自定义GPU...

设置白名单和安全组

创建HBase集群后,您需要设置HBase实例的白名单分组或者添加ECS安全组,以允许访问该集群。背景信息 为了数据库的安全,新创建的集群被默认设置为无法访问,包括:无法访问集群的开源组件,例如HBase,Ganglia和HDFS等。无法对集群的HBase...

ACK灵骏集群计费说明

阿里容器服务 ACK灵骏集群 是 容器服务 Kubernetes 版 针对智能计算灵骏提供的集群类型,提供全托管和高可用控制面板的标准Kubernetes集群服务,支持以灵骏计算节点作为Kubernetes集群的工作节点。本文介绍 ACK灵骏集群 各计费项的计费...

产品架构

如果相应的 CLB 实例服务端口使用的是四层协议(TCP或UDP),那么四层集群内每个节点都会根据 CLB 实例的策略,将其承载的服务请求按策略直接分发到后端 云服务器 ECS(Elastic Compute Service)。如果相应的 CLB 实例服务端口使用的是七...

升级节点cGPU版本

ACK集群支持GPU共享调度时节点需要安装cGPU模块。本文介绍如何通过命令及控制台升级节点上的cGPU模块。前提条件 您已通过kubectl连接集群。具体操作,请参见 通过kubectl连接Kubernetes集群集群已安装ack-cgpu组件。具体操作,请参见 ...

超级计算集群概述

SCC与阿里ECS、GPU云服务器等计算类产品一起,为 阿里弹性高性能计算平台E-HPC 提供了极高性能的并行计算资源,实现真正的上超算。机型对比 SCC与物理机、虚拟机的对比如下表所示。其中,Y表示支持,N表示不支持,N/A表示无数据。...

上云须知

GPU云服务器 是基于GPU应用的计算服务,多适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景。网络规划 容器集群基础设施(云服务器 ECS)的网络类型选择:专有网络VPC或经典网络。专有网络VPC:推荐使用。采用二层隔离,相对...

故障排查

本文介绍阿里容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

Cluster

RUNNING StateChangeReason ClusterStateChangeReason 集群状态变化原因。PaymentType string 付费类型。取值范围:PayAsYouGo:后付费。Subscription:预付费。PayAsYouGo SubscriptionConfig SubscriptionConfig 预付费配置。CreateTime ...

配置共享GPU调度仅共享不隔离策略

配置项 说明 实例规格 架构 选择 GPU云服务器,选择多个GPU实例规格。本文以使用GPU卡V100为例进行说明。期望节点数 设置节点池初始节点数量。如无需创建节点,可以填写为0。节点标签 单击,添加如下记录:键 为 ack.node.gpu.schedule,值...

通过Prometheus监控GPU实例

接入可观测监控Prometheus版后,您可以通过预定义的大盘监控Kubernetes集群中ECI GPU实例的性能指标。本文主要为您介绍如何通过Prometheus监控ECI GPU实例。前提条件 已创建 ACK Serverless集群,且集群已接入可观测监控Prometheus版。具体...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

高可用和容灾设计

数据库RDS提供多种灾备方案,确保您的数据不会丢失。数据备份与恢复 RDS默认提供备份功能,支持自动备份和手动备份。您可以设置自动备份的周期,还可以根据自身业务特点随时发起备份。更多信息请参见 备份恢复。RDS默认支持按备份集和...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

已停售的GPU实例规格

vCPU 内存(GiB)GPU GPU显存(GB)网络带宽(Gbit/s)网络收发包PPS RoCE网络(Gbit/s)多队列 弹性网卡 单网卡私有IP ecs.sccgn6e.24xlarge 96 768.0 NVIDIA V100*8 32GB*8 32 480万 50 8 32 10 GPU计算型超级计算集群实例规格族sccgn6 ...

集群监控告警说明

集群监控 进入【集群管理-集群监控】可以查看集群整体的监控大盘。上面4个选项卡可以切换图表,分别查看:集群监控大盘、集群巡检结果、底座组件监控、Yoda PV存储监控。集群告警 集群告警策略 集群告警主要包含所有K8s内核以及集群节点...

产品高可用

最佳实践:会话同步可以保证长连接不受集群服务器故障的影响,但是对于短连接或连接未触发会话同步规则时(未完成三次握手),集群内的服务器故障仍可能会影响用户请求。为了防止集群中某台机器故障导致的会话中断,您可以在业务逻辑中...

计算资源优化

GPU 云服务器 EGS(Elastic GPU Service):GPU云服务器是基于GPU与CPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势,特别是在浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。GPU的功能特性如下:...

配置Arena客户端

同时和阿里的基础云服务深度集成,支持GPU共享、CPFS等服务,可以运行阿里优化的深度学习框架,最大化使用阿里异构设备的性能和成本的效益。本文介绍如何配置Arena客户端。前提条件 创建包含GPU的Kubernetes集群。具体操作,请参见 ...

实例命名规则

命名规则 阿里云云服务器ECS提供了多种实例规格族,一种实例规格族又包括多个实例规格。其中,实例规格族名称格式为 ecs.<规格族>,实例规格名称为 ecs.<规格族>.<nx>large。实例具体命名含义如下所示:ecs:云服务器ECS的产品代号。规格...

创建DTS专属集群

否,请您等待1~5分钟后刷新页面重新查看,如果集群任务列表中仍然没有,请先排查是否是以下原因导致,如果不是,请联系阿里技术支持。导致集群任务列表中找不到专属集群的可能原因及解决办法。可能原因 解决方法 地域选择错误 在数据传输...

安装CUDA

如果您想要在GPU云服务器上进行GPU加速计算任务(例如科学计算或大规模并行计算等),则需要安装CUDA开发运行环境。CUDA提供了一整套工具和库,可以帮助您进行GPU加速的程序开发,以充分发挥NVIDIA GPU的计算潜力,提高计算性能和加速运行...

多可用区部署架构

相比单可用区集群,多可用区集群具备更高的容灾能力,可以抵御机房级别的故障。本文将为您介绍如何实施多可用区部署以及如何更换主可用区。前提条件 集群所在的地域需要 PolarDB 在两个及以上的可用区部署了资源。如下地域暂不支持多可用区...

新建集群

本文介绍如何新建 数据库ClickHouse 集群。前提条件 已注册阿里账号。具体操作,请参见 注册阿里账号。通过RAM用户(子账号)创建 数据库ClickHouse 集群时,该RAM用户(子账号)必须拥有AliyunClickHouseFullAccess和...

GPU节点卡型属性标签

在使用Kubernetes集群实现GPU计算时,为了有效利用GPU设备,可使用GPU节点卡型属性标签将应用调度至目标节点。本文介绍GPU节点卡型属性标签基本信息以及如何使业务运行或不运行在指定卡型上。GPU节点卡型属性标签说明 在ACK集群中扩容GPU...

产品简介

阿里容器计算服务ACS(Alibaba Cloud Container Compute Service)是以K8s为使用界面提供容器算力资源的计算服务,提供符合容器规范的算力资源。算力交付模式为Serverless形态,您无需关注底层节点及集群的运维管理。ACS支持按需弹性和...

添加已有节点

如果购买ECS实例后需将该云服务器添加到ACK集群中作为Worker节点,或移除Worker节点后需将节点实例重新加入节点池,您可以在容器服务管理控制台自动添加或手动添加节点。添加前,请仔细阅读使用限制、注意事项等。前提条件 已创建...

原生AI套件管理员运维指南

节点监控大盘可供您查看以下指标:GPU Node Details:以表格的形式展示集群节点的相关信息,包括:节点名称(Name)、节点在集群中的IP(IP)、节点在集群中的角色(Role)、节点的状态(Status)、GPU模式:独占或共享(GPU Mode)、节点...

修复NVIDIA GPU驱动漏洞CVE-2021-1056公告

Kubernetes集群中如果存在阿里云GPU(EGS)的节点,都有可能存在该漏洞。本文介绍该漏洞的背景信息、影响范围和解决方案。背景信息 漏洞CVE-2021-1056是NVIDIA GPU驱动程序与设备隔离相关的安全漏洞。当容器以非特权模式启动,攻击者利用这...

新建集群

当您面对业务扩展需要构建 数据库ClickHouse 集群时,本文档为您提供了在 数据库ClickHouse 控制台上新建集群的详细步骤,帮助您快速搭建起 数据库ClickHouse 集群。前提条件 已注册阿里账号。具体操作,请参见 注册阿里账号。...

什么是容器服务灵骏版

关于ACK灵骏托管版集群的更多操作以及更多功能的使用,请参见:ACK灵骏托管版集群计费说明 ACK灵骏托管版集群管理 创建集群 查看集群信息 管理集群 删除集群 灵骏节点池 灵骏节点池概述 ACK灵骏托管版集群组件 组件概述 管理组件 ACK灵骏...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库专属集群 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用