EMR Kafka磁盘故障运维

当磁盘发生故障时,应及时完成相关故障的处理,及时恢复集群的容错能力。磁盘运维概述 本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控 以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

故障演练

但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

ACK发布Kubernetes 1.26版本说明

当节点故障时,故障节点上的Pod会一直处于Terminating(停止)状态,也无法删除VolumeAttachments。如果是StatefulSet类型的Pod,因为Pod不允许同名,所以也不会在新节点上启动Pod。相比Kubelet检测节点关闭事件对 节点体面关闭,节点非...

云盘存储卷FAQ

删除挂载了云盘的Pod时提示The specified disk is not a portable disk 删除挂载了云盘的Pod时提示无法卸载云盘,kubelet日志中发现Orphaned pod(不受ACK管理的Pod)删除挂载了云盘的Pod后,Pod无法重新启动,提示挂载失败且无法自动恢复 ...

Pod演练场景

Kubernetes集群中Pod资源故障场景,包含删除PodPod网络异常场景。每个Pod场景下都包含通用的Pod筛选参数,用于查找目标Pod。通用参数 参数名称 参数说明 Pod资源名称 Pod资源名称,多个资源名称之间使用逗号分隔,表示选择多个PodPod...

演练场景说明

Pod演练场景 Kubernetes集群中Pod资源故障场景,包含删除PodPod网络异常场景。每个Pod场景下都包含通用的Pod筛选参数,用于查找目标Pod。Container演练场景 Kubernetes集群中Pod资源下的容器故障场景,目前包含删除容器以及容器内故障...

历史功能发布记录(2022年)

ACK Serverless集群 故障诊断包括Pod诊断、网络诊断等,可以帮助您定位集群中出现的问题。全部 使用集群巡检 使用集群诊断 ACK Pro版、ACK专有版集群支持配置共享GPU算力分配策略 ACK Pro版、ACK专有版集群支持共享GPU能力,提供共享GPU...

配置ECI Pod使用固定IP地址

如果Pod因为故障释放了,IP地址会随之释放,新创建的Pod会被分配新的IP地址。在某些业务场景下(例如一些IP地址直接暴露的服务),可能需要某一Pod使用固定的IP地址,否则会影响实际业务。基于上述场景,ECI支持了固定IP地址的功能。在创建...

K8s应用运维管理最佳实践

在Java类型应用中,如果出现故障Pod实例,可以借助Arthas诊断,排查Pod故障点。相关文档,请参见 Arthas诊断。如果应用无法正常启动,可以将启动命令修改为 sleep,再通过 kubectl exec 手动启动进程,观察输出并分析原因。相关文档,请...

实现ECI Pod可用区打散或亲和调度

不支持设置ECI Pod故障处理策略为 fail-fast。如果ECI Pod通过 k8s.aliyun.com/eci-fail-strategy: "fail-fast" 的Annotation设置了Pod故障处理策略为 fail-fast,该功能将被自动禁用。配置示例 下文将在1.22版本的 ACK Serverless集群...

Nginx Ingress异常问题排查

如果刚好集群节点或者Pod所在的节点上没有相应的后端服务Pod,就会发生网络不通的问题,而如果有相应的后端服务Pod,是可以正常访问。有关external-lb的更多信息,请参见 kube-proxy将external-lb的地址添加到节点本地iptables规则。解决...

Nginx Ingress异常问题排查

如果刚好集群节点或者Pod所在的节点上没有相应的后端服务Pod,就会发生网络不通的问题,而如果有相应的后端服务Pod,是可以正常访问。有关external-lb的更多信息,请参见 kube-proxy将external-lb的地址添加到节点本地iptables规则。解决...

通过一致性复制组实现容灾恢复

当生产站点发生故障时,将开启读写权限的容灾站点中云盘挂载到临时创建的ECS实例上继续运行业务,直到生产站点故障修复完成。警告 故障切换功能会暂停异步复制功能,您需要确保您的生产站点发生故障时再使用故障切换功能,避免数据丢失。...

设计方案

风险预测:风险预测是指在发生故障前,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。在故障应急响应中,风险预测可以作为重要参考,帮助快速识别问题的根本原因,提高故障处理效率和精度。故障响应 在发现故障...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

流水单据型业务场景多活实践

在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复。说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦。容灾切换...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

应用故障自动诊断

网络问题 机房发生网络故障导致应用运行异常。查看故障自动诊断报告 登录 EDAS控制台。在左侧导航栏,单击 应用管理>应用列表,在顶部菜单栏选择地域并在页面上方选择 所属微服务空间,在 集群类型 下拉列表,选择 K8s集群,然后在页面单击...

创建并使用K8s事件中心

K8s事件中心记录了集群的状态变更,包括创建Pod、运行Pod、删除Pod、组件异常等。K8s事件中心实时汇聚Kubernetes集群中的所有事件并提供存储、查询、分析、可视化、告警等能力。本文介绍创建及使用K8s事件中心的操作步骤。前提条件 已创建...

故障排查

容器服务ACK应用故障排查 Pod停留在Pending状态 表示该Pod不能被调度到任何一个节点上,通常是因为集群中缺乏需要的资源导致。您可以通过 kubectl describe pod 命令查看事件和排查。具体操作,请参见 Pod状态为Pending。Pod停留在Waiting...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

Pod诊断

Pod发生OOM异常。Pod容器异常退出。Pod ConfigMap或Secret配置异常。Pod健康检查失败。Pod PVC配置异常。Pod镜像拉取异常。诊断流程 集群诊断收集部分集群信息并识别其中的异常,然后根据识别到的异常进行深入的异常诊断。诊断融合了基于...

Pod诊断

Pod发生OOM异常。Pod容器异常退出。Pod ConfigMap或Secret配置异常。Pod健康检查失败。Pod PVC配置异常。Pod镜像拉取异常。诊断流程 集群诊断收集部分集群信息并识别其中的异常,然后根据识别到的异常进行深入的异常诊断。诊断融合了基于...

Container演练场景

Kubernetes集群中Pod资源下的容器故障场景,包含容器以及容器内故障场景。每个容器故障场景下都包含通用的容器筛选参数,用于查找目标容器。通用参数 参数名称 参数说明 Pod资源名称 Pod资源名称,多个资源名称之间使用逗号分隔,表示选择...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 OceanBase 版 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用