主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

故障排查与常见问题

故障排查索引 集群类型 相关文档 托管版与专有版容器集群ACK 使用OpenAPI诊断工具进行故障排查 Service异常问题排查 Nginx Ingress异常问题排查 DNS解析异常问题排查 使用DNSTAP Analyser诊断异常 Pod异常问题排查 节点异常问题排查 存储...

查看集群概况

智能运维系统通过红黄绿3种颜色来展示集群的健康状况:红色:表示集群已经出现了很严重的问题或者很严重的隐患,已经影响了您的使用,需要立即处理,否则会存在数据丢失,集群故障等问题。黄色:表示集群存在较严重的问题或隐患,可能会...

基于MSE云原生网关实现同城多活

在同城多活的场景下,能够确保对跨可用区的多个业务集群的请求实现高效负载均衡分配,在单个可用区内的业务集群发生故障时,可在1秒内完成故障节点的自动摘除从而实现故障转移,有效的保障服务连续性和高可用性。容灾概述 目前云上容灾主要...

通过云原生网关管理多个ACK集群

例如,集群A部署在可用区A,集群B部署在可用区B,A与B两个集群部署的服务一致,当其中一个集群故障时可以快速切换流量。云原生网关为了支持业务的高可用部署诉求,提供了多ACK集群接入功能。即用一个云原生网关实例同时关联A、B两个集群,...

集群联邦发布容灾

背景信息 当站点因为不可抗力因素或者设备故障导致应用在短时间内无法恢复时,LHC 可提供多集群联邦发布容灾保护。当站点故障时,通过简单的配置,即可在容灾站点迅速恢复业务。容灾是一个范畴比较广泛的概念。广义上,容灾是一个系统工程...

智能门禁

设备的SN码和别名进行录入 设备SN码为设备面板或包装上打印的数字 设备名称为您对这台设备设置的别名,用于理解设备作用和安装位置 通行住户范围为这台门禁机允许哪些楼栋的住户通行,配置完成后,楼栋关联的用户人脸及二维码将下发至...

停车管理

点击右侧添加设备,将设备SN码、设备别名以及设备位置进行录入 设备SN码为设备或包装上打印的数字 设备名称为您对这台设备设置的别名,用于理解设备作用 设备位置为这台设备所安装的小区具体出入口位置 选择车辆权限管理,对小区的车辆进出...

安装云原生AI套件

云原生AI套件支持安装在ACK Pro版集群、ACK Serverless集群Pro版、ACK Edge集群Pro版,且集群版本为1.18及以上。本文介绍如何安装云原生AI套件,以及如何安装配置云原生AI运维控制台和开发控制台。前提条件 已创建ACK Pro版集群、ACK ...

通过CCR跨集群复制解决跨集群容灾场景

Elasticsearch(简称ES)集群出现灾难性事件,例如,硬件故障、软件错误、数据中心故障、自然灾害或其他导致服务中断的情况,可使用跨集群复制CCR(Cross Cluster Replication)实现跨地域或跨资源的容灾能力,本文分别介绍新老网络架构下...

创建GPU集群

NVIDIA GPU设备多用于科学计算、图形渲染等场景,为这些计算应用提供加速计算能力。容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点...

使用集群API Server审计功能

ACK集群提供API Server的审计日志,帮助集群管理人员排查“什么人在什么时间对什么资源做了什么操作”,可用于追溯集群操作历史、排查集群故障等,降低集群安全运维压力。使用说明 本文仅适用于 ACK托管集群、ACK专有集群、ACK Serverless...

使用集群API Server审计功能

ACK集群提供API Server的审计日志,帮助集群管理人员排查“什么人在什么时间对什么资源做了什么操作”,可用于追溯集群操作历史、排查集群故障等,降低集群安全运维压力。使用说明 本文仅适用于 ACK托管集群、ACK专有集群、ACK Serverless...

创建FPGA集群

本文介绍如何通过容器服务管理控制台创建FPGA集群及查看节点挂载的FPGA设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。根据各个地域和可用区支持的FPGA实例规格情况,选择创建托管FPGA集群的地域。关于ECS实例规格可购买地域...

集群异常状态

ACK会定时检测集群运行状态,如果集群符合特定的异常条件,集群状态将自动变更为“不活跃(inactive)”或“不可用(unavailable)”。集群变更为“不活跃”或“不可用”状态时,ACK将会通过短信、邮件、站内信的方式向您发送相关通知。...

创建ASIC集群

查看节点挂载的ASIC设备 集群创建成功后,可查看节点挂载的ASIC设备。登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 节点管理>节点。在创建集群时配置的Worker节点所在行...

组件异常问题排查

常见异常原因和解决方案 原因一:Pod无法被调度 对应事件内容:FailedScheduling 原因详述:集群中的节点无法满足Pod的调度要求,可能由以下一种或多种原因导致。可以通过事件的详细描述确定具体原因集群节点可用的CPU、内存资源不足,...

Kubernetes集群网络异常的排查方法

问题原因 集群内ECS的安全组配置错误或者冲突。集群内VPC的路由表条目配置错误或者冲突。解决方案 根据现场实际情况,修改ECS的安全组和VPC的路由表条目。ECS的安全组 创建集群时会创建一个安全组,该安全组默认包含如下特性:集群的所有...

常见问题

如果因为各种异常原因初始化失败,那么会导致整个集群初始化失败。metricbeat:依赖ES服务,ES由BizWorks直接提供。如果ES的地址配置失败,会导致 metricbeat 无法启动,从而导致集群初始化失败。log-pilot:依赖Kafka,且需用BizWorks的...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

常见问题旧版索引

使用Terway网络的ENI模式出现网络异常 Terway网络场景中交换机的IP资源不足 ACK集群中SLB实例的具体用途 集群管理 容器服务ACK集群故障排查 添加Kubernetes集群节点的常见问题 删除Kubernetes集群失败 通过CloudShell管理集群出现超时问题 ...

节点诊断

容器智能运维平台 提供节点诊断功能,帮助您诊断集群中存在异常的节点。本文介绍节点诊断对应的检查项以及修复方案。容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能...

Pod诊断

重要 使用故障诊断功能时,系统将在您的集群 节点上 执行数据采集程序并收集检查结果。采集的信息包括系统版本,以及负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。诊断支持的...

故障排查

ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的排查方法 容器服务ACK应用故障排查 如何升级集群?排查故障的...

创建Kubernetes托管版集群

创建Kubernetes托管版集群时,您只需创建节点,无需维护控制面板。控制面板由阿里云容器服务创建并托管,降低了运维成本,帮助您聚焦业务应用。本文介绍如何通过容器服务控制台创建Kubernetes托管版集群。索引 前提条件 使用限制 计费相关 ...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

冷备操作手册

二 使用限制 替换机型限制 替换机器型号相同,新机器和被替换机器底座版本均为2.1x版本及以上(版本查看方案参考《实施手册》)应用版本限制 协议"门禁设备官方协议"版本要求:2.10.0版本及以上(升级参考6.1 协议版本升级,如故障前未升级...

控制台发布记录

2022-12-16 冷数据归档 2022年11月 功能名称 功能描述 发布时间 相关文档 新增集群保护锁 开启集群保护锁,可以有效避免因操作疏忽、团队成员沟通不及时等原因造成的集群释放。2022-11-20 集群保护锁 新增全局只读节点 在产品系列为多主...

查看连接地址

Proxy为阿里云完全自研,承担着路由转发、负载均衡、模式转换与故障转移等职责,同时支持执行 阿里云自研的Proxy命令,具有聚合连接、增强读性能、简单易用等优势,有助于您设计更高效的业务系统,更多信息请参见 Redis Proxy特性说明。...

大规模ACK Pro集群使用建议

分类 说明 隔离性 使用多个集群可以确保不同集群(例如生产集群和测试集群)的隔离性,避免某个集群的问题影响全部业务,降低故障爆炸半径。位置 某些服务需要部署在离终端用户更近的特定地理位置,以满足可用性、低延时的需求。在此场景下...

功能发布记录

全部 使用KubeConfig回收站 清除KubeConfig 通过ack-ram-tool清理集群中指定用户的权限 新增支持GPU设备隔离 在ACK集群的独占GPU调度场景下,为了应对GPU设备故障的情况,ACK提供一个机制,可以对GPU节点上的某个设备进行隔离,以避免新的...

集群场景下启用ASM本地集群内流量保持功能

重要 流量保持功能开启后,如果m1c1集群中的Reviews-v1因故障原因下线,Productpage无法通过访问m1c2集群中的Reviews-v2来提供服务。说明 如果您为一个服务开启了集群内流量保持功能,当其它服务的工作负载访问此服务时,将只能访问到该...

集群场景下启用ASM本地集群内流量保持功能

重要 流量保持功能开启后,如果m1c1集群中的Reviews-v1因故障原因下线,Productpage无法通过访问m1c2集群中的Reviews-v2来提供服务。说明 如果您为一个服务开启了集群内流量保持功能,当其它服务的工作负载访问此服务时,将只能访问到该...

跨地域灾备

当主集群发生故障后,阿里云确认主集群不可恢复,开放将项目切换到备份集群所在地域的能力,切换按钮可用,由您选择触发切换,操作步骤如下。重要 您需要谨慎操作切换功能。因为备份非实时,不支持PiTR,所以切换可能会有数据丢失。如果...

ModifyDBCluster-修改集群功能配置

修改PolarDB MySQL集群的功能配置。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 ...

申请和释放公网地址

云原生数据仓库AnalyticDB MySQL版 集群支持VPC地址和公网地址两种类型的地址,如果需要通过公网连接集群,您需要先申请公网地址。公网和VPC网络 网络类型 说明 VPC网络 一个VPC就是一个隔离的网络环境。VPC的安全性较高,推荐您使用VPC...

集群管理常见问题

本文汇总了集群管理的常见问题。EMR支持哪些地域?EMR集群是否支持升级版本?高可用集群为什么部署3个Master节点?如何开启磁盘加密?开启后有什么影响?如何清理创建失败的集群?创建集群时报错“ECS库存不足”,该如何处理?是否支持磁盘...

PHP

如果使用公网地址连接 AnalyticDB MySQL 集群,您还需要将待访问 AnalyticDB MySQL 集群设备IP 加入白名单。使用mysqli连接 AnalyticDB MySQL/AnalyticDB MySQL 集群的连接地址,可以在控制台的集群信息页面获取连接地址。ads_server_...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库专属集群 物联网无线连接服务 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用