系统工程故障原因-系统工程故障原因文档介绍内容-阿里云

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，当只读节点未开启热备时，主备切换过程中可能会出现20~30秒左右的闪断，因此切换前请...

关键技术竞争力

基于混沌工程的红蓝攻防能力 TRaaS 基于混沌工程、建立演练机制，提供故障注入、演练编排体系能力，支持在不同环境、不同阶段，主动对业务系统进行故障注入，从而在主动观测单应用健壮性的同时，验证整个体系的故障发现能力、应急响应能力...

如何管理故障

可对故障根因进行原因检查并结构化录入，检查点包括：故障原因、最近活动、注入方式、恢复方式等；关联故障期间的故障变更，新增故障改进措施等操作。故障状态处理中：处理中仍未恢复的故障；已恢复：故障对处理中的故障做恢复操作后是...

地址标准化服务等级协议

2.3除外情形因下述原因导致的服务不可用的时长不计入服务不可用时间：（1）阿里云预先通知客户后进行系统维护所引起的，包括割接、维修、升级和模拟故障演练；（2）任何阿里云所属设备以外的网络、设备故障或配置调整引起的；（3）客户的...

故障管理

包括根因检查点（如故障原因、最近活动、注入方式、恢复方式等）、故障变更检查、监控检查，并需要对每一个故障明确责任人及团队；故障改进：支持对故障制定明确的改进及验收措施、责任人及完成时间，确保每个深度复盘后的故障都能对业务...

什么是消息演练

随着应用规模的扩大，系统变得越来越复杂，不可避免地会走向分布式化。各种中间组件会相继被引入系统，其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象，其内部故障原因可能是多种多样的，需要进一步进行分析。

主从实例读写分离部署（共享存储）

当出现1分钟容器响应超时（可能是内存溢出、硬件故障、软件Bug等原因导致），Resource Manager会自动拉起新的计算节点，并迁移Shard职责到新的节点上（例如Worker Node3响应超时，Resource Manager拉起Worker Node4取代Worker Node3），...

故障应急协同

将故障相关成员直接拉进处理群，相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”，并且系统自动电话通知。进群后的成员，可直接在群内签到。每个故障建议设置单独的故障处理群，群内成员均为故障的相关人，为...

SLA服务等级协议

2.3 除外情形因下述原因导致的服务不可用的时长不计入服务不可用时间：（1）阿里云预先通知客户后进行系统维护所引起的，包括割接、维修、升级和模拟故障演练；（2）任何阿里云所属设备以外的网络、设备故障或配置调整引起的；（3）客户的...

网络资源

网络闪断故障可能由多种原因引起，如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断，影响系统和应用程序之间的数据传输，频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下：设备冗余：使用...

应用故障自动诊断

在EDAS中进入应用总览页面时，会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持：这一部分包含了得到推测结论的数据支持，不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

故障复盘

复盘文档一般包含以下内容：故障简述：故障概述、影响面、处理人等故障背景：故障发生时的业务链路故障时间线：着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析：建议先一句话总结，再进行...

什么是容器报警演练

不同于其他故障演练模块对系统注入真实故障，报警演练只会对集群的API Server投递事件，由事件触发报警链路，不会对系统造成真实故障。无侵入。无需在用户集群中安装探针以注入故障，所有事件投递都是通过API Server来进行网络请求。

服务等级协议

2.3除外情形因下述原因导致的服务不可用的时长不计入服务不可用时间：（1）阿里云预先通知客户后进行系统维护所引起的，包括割接、维修、升级和模拟故障演练；（2）任何阿里云所属设备以外的网络、设备故障或配置调整引起的；（3）客户的...

功能概述

数据库发生故障后，无法在发生故障时定位到原因，可以通过智能压测功能，在克隆库上复现故障场景，定位故障原因。功能架构智能压测的功能架构如下图所示：源数据库：将要进行大促、将要业务变更或者已经发生故障，需要进行流量捕获的数据...

云盘三副本技术

重要如果ECS实例由于病毒感染、人为误删除或黑客入侵等软故障原因造成数据丢失，需要您采用备份或者快照等技术手段来解决。任何技术都不可能解决全部问题，因地制宜地选择合适的数据保护措施，才能为您的业务数据筑起一道坚实的防线。更多...

什么是应用高可用服务AHAS

故障演练故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品，提供丰富故障场景实现，能够帮助分布式系统提升容错性和可恢复性。流程故障演练建立了一套标准的演练流程，包含准备阶段、执行阶段、检查阶段和恢复阶段。...

监控报警概述

故障预警云电脑的故障信息、故障原因及故障时间等信息。使用场景在日常业务运行的过程中，监控大盘帮助您及时了解账号下全部云电脑资源的全局情况，实时监控提供更详细的数据指标和故障预警信息，帮助您了解终端用户使用云电脑的情况，...

托管节点池节点自动恢复

当发现节点故障时，ACK会根据故障原因触发对应恢复任务，并记录相应的事件。当恢复任务完成后，故障状态解除，节点恢复正常状态。当恢复任务完成后，故障状态依然存在，节点会被置为恢复失败状态。说明如果集群中存在多个节点池，节点池...

节点诊断

容器智能运维平台构建了基于专家经验的故障诊断系统，并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式，节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项：包括Node检查、...

监控指标说明

该指标协助您进行作业诊断，排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间，从而影响作业性能。该指标协助您进行作业诊断，排查作业级别的故障原因。毫秒（ms）TM ClassLoader/...

Pod诊断

容器智能运维平台构建了基于专家经验的故障诊断系统，并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式，进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项：包括Pod检查...

流量回放和压测

此外，在数据库发生故障且无法定位原因时，可以利用克隆库复现故障场景，以便更好地定位故障原因。前提条件源数据库支持：RDS MySQL PolarDB MySQL版说明不支持 PolarDB MySQL版的企业版单节点实例。PolarDB-X 2.0。目标数据库实例...

智能压测

此外，在数据库发生故障且无法定位原因时，可以利用克隆库复现故障场景，以便更好地定位故障原因。前提条件源数据库支持：RDS MySQL PolarDB MySQL版说明不支持 PolarDB MySQL版的企业版单节点实例。PolarDB-X 2.0。目标数据库实例...

捷顺

DAS服务自动SQL限流和自动SQL调优，帮助DBA从救火员转向数据库架构师，有更多时间和精力帮助研发优化系统架构，审核数据库的变更和各种操作，进一步降低系统故障的概率。DAS服务自动对数据库实例进行治理，帮助捷顺科技把数据库的运维成本...

ECS容灾常见问题

SuSE Linux Enterprise Server 12.1由于系统本身的原因导致在VMware环境下存在重启后黑屏的问题，出现此类问题与ECS容灾服务无关。Alibaba Cloud Linux 2.1903 LTS 64位目前支持Alibaba Cloud Linux 2.1903 LTS 64位如下的内核版本：4.19....

ECS容灾常见问题

SuSE Linux Enterprise Server 12.1由于系统本身的原因导致在VMware环境下存在重启后黑屏的问题，出现此类问题与ECS容灾服务无关。Alibaba Cloud Linux 2.1903 LTS 64位目前支持Alibaba Cloud Linux 2.1903 LTS 64位如下的内核版本：4.19....

灾备方案

Tair 容灾架构演进当 Tair 实例因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择，可满足不同的业务场景。图 1.Tair 容灾架构演进灾备方案灾备级别 ...

Windows 实例系统重启后显示系统恢复选项

操作系统在遇到异常、无法启动可能是由多种原因导致的,例如，用户注册表损坏、磁盘问题、驱动问题、系统文件损坏或丢失、BCD 损坏等。上述这些情况可能是由于用户误操作、病毒、三方杀毒软件、异常强制重启造成。解决方法针对系统进入修复...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

产品简介开源ChaosBlade与商业化AHAS CHAOS故障演练的特点如下：开源ChaosBlade具备使用简单、场景丰富、演练模型标准化等一系列特点，可以帮助企业快速实施混沌工程。商业化AHAS CHAOS故障演练是阿里巴巴内部广泛使用的演练平台云上版本...

灾备方案介绍

云数据库Redis容灾架构演进当云数据库Redis实例因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择，可满足不同的业务场景。图 1.Redis容灾架构...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法，结合环境光强度、环境温度等影响因素，对组串式光伏发电阵列的电流-电压曲线（I-V曲线）进行分析，检测系统可能出现的故障，进而提高设备的运行效率，保障电站高效运行。本文介绍光伏智能运维...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿，但不包括以下原因所导致的服务不可用时间：（1）阿里云预先通知用户后进行系统维护所引起的，包括割接、维修、升级和模拟故障演练；（2）任何阿里云所属设备以外的网络、设备故障或配置调整引起的；（3）...

实例的节点故障处理机制

当节点发生故障后，系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明单节点实例适用于测试、培训、非核心业务等场景，生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集图 1.副本集架构 ...

EMR Kafka磁盘故障运维

当出现磁盘故障时，需要根据故障原因、故障影响程度、业务需求（是否接受数据丢失、是否允许服务较长时间不可用）、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用，但允许丢失部分数据，则应考虑在可能会丢失数据的情况下，...

设置Pod故障处理策略

配置说明在虚拟节点上创建ECI Pod时，可能会因为库存不足等原因导致Pod创建失败，默认情况下，系统会自动进行重调度，尝试重新创建Pod。您可以通过添加 k8s.aliyun.com/eci-fail-strategy 的Annotation来修改Pod故障处理策略，设置Pod创建...

应用场景

提供了基于Istio的混沌工程能力，包括如何使用连接池配置和异常检测实现熔断能力，支持针对服务的重试和故障注入等能力。服务可观测性通过ASM，可以轻松实现服务之间的可观测性，借助强大可靠且易于使用的监控功能，快速有效地检测和修复...

主备方案介绍

灾备方案说明单可用区高可用方案主备节点部署在同一可用区中的不同机器上，当任一节点发生故障时，由高可用HA（High Availability）系统监控主备节点的健康状态并自动执行故障切换，避免单点故障引起的服务中断。同城容灾方案主备节点...

管理集群

主机故障处理策略设置主机故障时系统的处理策略：自动替换主机：系统会自动替换故障主机。说明如果故障主机是云盘主机，云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机，则系统会先将故障主机上的实例迁移走，然后自动...

管理集群

主机故障处理策略设置主机故障时系统的处理策略：自动替换主机：系统会自动替换故障主机。说明如果故障主机是云盘主机，云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机，则系统会先将故障主机上的实例迁移走，然后自动...

系统工程故障原因

新品推荐