通过CCR跨集群复制解决跨集群容灾场景

Elasticsearch(简称ES)集群出现灾难性事件,例如,硬件故障、软件错误、数据中心故障、自然灾害或其他导致服务中断的情况,可使用跨集群复制CCR(Cross Cluster Replication)实现跨地域或跨资源的容灾能力,本文分别介绍新老网络架构下...

将报警配置功能接入注册集群

event eviction-event sls.app.ack.eviction 集群GPU的XID错误事件 集群GPU XID异常事件。event gpu-xid-error sls.app.ack.gpu.xid_error 集群节点下线 集群中节点下线。event node-down sls.app.ack.node.down 集群节点重启 集群中节点...

创建FPGA集群

本文介绍如何通过容器服务管理控制台创建FPGA集群及查看节点挂载的FPGA设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。根据各个地域和可用区支持的FPGA实例规格情况,选择创建托管FPGA集群的地域。关于ECS实例规格可购买地域...

集群异常状态

状态代码:KMSIndebtOverdue 异常原因 集群开启了使用阿里密钥管理服务KMS进行Secret的落盘加密功能,且由于阿里账号欠费或其他原因导致KMS服务暂停,使得集群控制面无法正常运行。恢复方式 登录 密钥管理服务控制台。查看KMS服务暂停...

使用集群API Server审计功能

ACK集群提供API Server的审计日志,帮助集群管理人员排查“什么人在什么时间对什么资源做了什么操作”,可用于追溯集群操作历史、排查集群故障等,降低集群安全运维压力。使用说明 本文仅适用于 ACK托管集群、ACK专有集群、ACK Serverless...

创建ASIC集群

查看节点挂载的ASIC设备 集群创建成功后,可查看节点挂载的ASIC设备。登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 节点管理>节点。在创建集群时配置的Worker节点所在行...

GPU虚拟化型

本文介绍为您介绍云服务器ECS GPU虚拟化型实例规格族的特点,并列出了具体的实例规格。GPU虚拟化型实例规格族sgn7i-vws(共享CPU)GPU虚拟化型实例规格族vgn7i-vws GPU虚拟化型实例规格族vgn6i-vws GPU虚拟化型实例规格族sgn7i-vws(共享...

ack-arms-prometheus

ack-arms-prometheus组件是 阿里Prometheus 在ACK集群中的监控组件。本文介绍ack-arms-prometheus组件信息、使用说明和变更记录。组件介绍 ack-arms-prometheus是阿里容器服务Kubernetes版提供对接 阿里Prometheus 的监控组件。当在...

Helm版本说明

2020年 展开折叠面板查看2020年组件变更记录 Helm版本号 Agent镜像版本号 功能概述 发布时间 变更影响 v0.1.5 arms-prom-operator:v0.1 支持阿里容器服务Kubernetes版v1.18集群。支持镜像Region从内网地址拉取。2020年10月 此次升级不会...

组件异常问题排查

常见异常原因和解决方案 原因一:Pod无法被调度 对应事件内容:FailedScheduling 原因详述:集群中的节点无法满足Pod的调度要求,可能由以下一种或多种原因导致。可以通过事件的详细描述确定具体原因集群节点可用的CPU、内存资源不足,...

常见问题

确保集群有出入公网双向权限 您需要确保集群具有出入公网的双向权限,否则会导致初始化公有云服务集群失败。访问公网权限,主要用来拉取BizWorks的相关镜像。被公网访问的权限,则是用来可以被BizWorks管控访问。关于如何配置集群访问公网...

GPU监控

请确保您已在云服务器ECS上安装监控插件。具体操作,请参见 安装监控插件。监控项说明 您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。监控项 单位 MetricName Dimensions(Agent)GPU维度解码器使用率%...

启动实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍如何在ECS管理控制台上启动实例。前提条件 实例满足以下条件之一:实例处于 已停止 状态。按量付费实例处于 已过期 状态,您已经结清欠费账单但自动重开机...

释放实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。当您不再需要某个GPU实例提供服务时,您可以释放该实例,以免产生额外的费用,本文主要介绍释放按量付费实例(包括抢占式实例)和已到期的包年包月实例。前提条件 ...

搭建具备大模型和向量检索功能的知识库应用程序

背景信息 DeepGPU-LLM是阿里研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务时,该推理引擎可以为您提供高性能的大模型推理服务。更多信息,请参见 什么是推理引擎DeepGPU-LLM。...

停止实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍停止ECS实例,以及VPC内实例节省停机模式相关操作。前提条件 实例必须处于 运行中 状态。警告 停止实例会中断您的业务,请谨慎执行。停止包年包月实例 说明...

ACK专有版集群迁移至ACK集群Pro版后升级共享GPU组件

ACK专有版集群 安装的共享GPU组件在 ACK集群Pro版 中无法正常使用,需在 ACK集群Pro版 中升级相关组件,以实现GPU的调度和隔离。本文介绍如何在 ACK集群Pro版 中升级共享GPU组件。前提条件 已将 ACK专有版集群 迁移至 ACK集群Pro版 中,且...

配置共享GPU调度节点选卡策略

配置项 说明 实例规格 架构 选择 GPU云服务器,选择多个GPU实例规格。由于只有在节点有多张GPU卡的情况下,节点选卡策略才能看出效果,建议选择带有多张GPU卡机型。期望节点数 设置节点池初始节点数量。如无需创建节点,可以填写为0。节点...

功能发布记录

全部 使用KubeConfig回收站 清除KubeConfig 通过ack-ram-tool清理集群中指定用户的权限 新增支持GPU设备隔离 在ACK集群的独占GPU调度场景下,为了应对GPU设备故障的情况,ACK提供一个机制,可以对GPU节点上的某个设备进行隔离,以避免新的...

神行工具包(DeepGPU)计费

使用神行工具包(DeepGPU)本身不需要额外支付费用,您只需要为执行计算任务过程中使用的阿里资源(例如云服务器ECS或文件存储NAS)进行付费。神行工具包中的组件主要包括 AI训练加速器Deepytorch Training、AI推理加速器Deepytorch ...

修复GPU实例重启或被置换后设备ID变更问题

步骤二:验证GPUOps修复GPU设备ID变更情况 GPUOps安装完成后,在GPU集群部署1个Pod。部署Pod的YAML文件样例如下:展开查看YAML详情 apiVersion:apps/v1 kind:StatefulSet metadata:name:app-3g-v1 labels:app:app-3g-v1 spec:replicas:1 ...

使用ACK服务实现GPU的成本优化

利用阿里容器服务ACK部署GPU集群后,出于成本优化考虑,针对集群中GPU利用率不同的应用,选择不同的成本优化方案,可以实现集群的灵活管理,同时整体降低成本。例如,对于集群中GPU利用率不高的应用(例如推理应用),建议选择cGPU技术将...

创建Windows节点池

实例为非GPU云服务器架构。实例规格为4核 8GB及以上。Windows容器在内存使用超出Limitation后并不会执行OOM Killed。自2021年05月起,在v1.16及之后版本的ACK集群,新添加的Windows节点启动时会预留一定的资源(1.5核CPU、2.5 GB RAM、3 GB...

基本概念

本文汇总使用GPU云服务器过程中涉及的基本概念,方便您查询和了解相关概念。GPU云服务器相关概念 概念 说明 GPU 图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更多的流水线,适合用于大规模并行计算等场景。CUDA ...

使用GPU拓扑感知调度(Pytorch版)

前提条件 已创建ACK Pro集群,且集群的实例规格类型选择为 GPU云服务器。更多信息,请参见 创建Kubernetes托管版集群。已安装 Arena。已安装GPU拓扑感知调度组件。系统组件版本满足以下要求。组件 版本要求 Kubernetes 1.18.8及以上版本 ...

使用VNC登录实例

无法使用Workbench和第三方远程连接工具(例如PuTTY、Xshell、SecureCRT等)连接实例时,您可以通过VNC远程连接方式登录实例,查看云服务器ECS操作界面的实时状态。重要 自2023年7月10日起,远程连接工具VNC无需单独设置VNC登录密码,即可...

跨地域灾备

当主集群发生故障后,阿里确认主集群不可恢复,开放将项目切换到备份集群所在地域的能力,切换按钮可用,由您选择触发切换,操作步骤如下。重要 您需要谨慎操作切换功能。因为备份非实时,不支持PiTR,所以切换可能会有数据丢失。如果...

开启集群GPU监控

前提条件 已创建托管GPU集群或专有GPU集群。具体操作,请参见 创建GPU集群 或 创建专有GPU集群。已开通ARMS。具体操作,请参见 开通ARMS。背景信息 对运维人员来说,实现对Kubernetes的大规模GPU设备可监测能力至关重要。通过监测GPU相关...

异构计算集群概述

更多信息,请参见 创建GPU集群 和 创建专有GPU集群。支持以GPU卡为单位申请集群GPU资源。支持自动扩缩容集群GPU节点。更多信息,请参见 基于GPU指标实现弹性伸缩。支持GPU共享调度和算力隔离功能。阿里自研的GPU共享调度将多个模型推理...

ModifyDBCluster-修改集群功能配置

修改PolarDB MySQL集群的功能配置。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 ...

管理从集群

全球数据库网络(Global Database Network,简称GDN)是由分布在同一个国家不同地域的多个 PolarDB 集群组成的网络,网络中所有集群的数据保持同步。当您的业务部署在多个地域时,利用GDN可以实现应用访问数据库的低延迟和高稳定性。本文...

申请和释放公网地址

原生数据仓库AnalyticDB MySQL版 集群支持VPC地址和公网地址两种类型的地址,如果需要通过公网连接集群,您需要先申请公网地址。公网和VPC网络 网络类型 说明 VPC网络 一个VPC就是一个隔离的网络环境。VPC的安全性较高,推荐您使用VPC...

故障排查

本文介绍您在使用 ACK Serverless集群 时可能遇到的故障以及解决方案。如果您在使用 ACK Serverless集群 时出现故障,可根据以下故障分类匹配故障场景和解决方案,帮助您快速排查问题,提升运维效率。分类 相关文档 集群资源和集群组件异常...

使用Kubernetes事件中心监控GPU异常

GPU设备在使用中,容易发生一些Xid错误,可以配合Kubernetes事件中心,对这些Xid错误进行监控告警,及时发现并定位故障原因。操作步骤 进入日志服务 K8s事件中心 页面。具体操作步骤,请参见 创建并使用Kubernetes事件中心。在 K8s事件中心...

Databricks Runtime

Databricks Runtimes是在Databricks集群上运行的一组核心组件。Databricks提供了几种类型的Runtime。Databricks Runtime Databricks Runtime包括Apache Spark,但还添加了许多组件和更新,这些组件和更新极大地提高了大数据分析的可用性,...

应用场景

云服务器ECS具有广泛的应用场景,既可以作为Web服务器或者应用服务器单独使用,又可以与其他阿里云服务集成提供丰富的解决方案。说明 云服务器ECS的典型应用场景包括但不限于本文描述,您可以在使用云服务器ECS的同时发现计算带来的技术...

PHP

如果使用公网地址连接 AnalyticDB MySQL 集群,您还需要将待访问 AnalyticDB MySQL 集群设备IP 加入白名单。使用mysqli连接 AnalyticDB MySQL/AnalyticDB MySQL 集群的连接地址,可以在控制台的集群信息页面获取连接地址。ads_server_...

使用eGPU Kubernetes组件

eGPU是容器虚拟化方案,可直接用于支持原生资源平台,为大规模集群提供GPU共享能力。为了在Kubernetes集群中使用eGPU共享GPU资源,需要通过以下步骤安装eGPU device plugin使能GPU虚拟化的调度能力。前提条件 Docker推荐19.03.5及以上...

使用FastGPU加速AI训练/推理

选用的产品列表 产品名称 说明 GPU云服务器 该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。对象存储OSS 是一款海量、安全、低成本、高可靠的存储服务,多种存储...

产品优势

高可用性 E-HPC集群节点基于云服务器ECS、超级计算集群SCC和GPU云服务器组建,大大提高了集群的可用性。结果可视 E-HPC提供可视化服务功能,您可以通过可视化服务功能将计算结果转换为可读的图形化数据。例如您可以直接观看渲染后的动画...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库专属集群 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用