忙时故障原因-忙时故障原因文档介绍内容-阿里云

监控指标说明

该指标协助您进行作业诊断，排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间，从而影响作业性能。该指标协助您进行作业诊断，排查作业级别的故障原因。毫秒（ms）TM ClassLoader/...

访问策略

6.备用地址池是在默认地址池因故障原因不可用时，可以将用户的访问流量切换至备用地址池上。在备用地址池的下拉框中，选择已创建的地址池名称，最后单击下一步。如果您还没有创建地址池，请参考创建地址池文档。注意：如未设置备用...

常见问题

PolarDB 每个节点都有一个故障切换（Failover）优先级，决定了故障切换时被选举为主节点的概率高低。当多个节点的优先级相同时，则有相同的概率被选举为主节点，详情请参见自动/手动主备切换。备份与恢复 Q：PolarDB 采用什么备份方式？A...

功能概述

数据库发生故障后，无法在发生故障时定位到原因，可以通过智能压测功能，在克隆库上复现故障场景，定位故障原因。功能架构智能压测的功能架构如下图所示：源数据库：将要进行大促、将要业务变更或者已经发生故障，需要进行流量捕获的数据...

流量回放和压测

此外，在数据库发生故障且无法定位原因时，可以利用克隆库复现故障场景，以便更好地定位故障原因。前提条件源数据库支持：RDS MySQL PolarDB MySQL版说明不支持 PolarDB MySQL版的企业版单节点实例。PolarDB-X 2.0。目标数据库实例...

智能压测

此外，在数据库发生故障且无法定位原因时，可以利用克隆库复现故障场景，以便更好地定位故障原因。前提条件源数据库支持：RDS MySQL PolarDB MySQL版说明不支持 PolarDB MySQL版的企业版单节点实例。PolarDB-X 2.0。目标数据库实例...

GTM如何实现异地容灾

两地三中心容灾架构，是指在同城双中心的基础上，在异地的城市建立一个备份的灾备中心，用于双中心的数据备份，当双中心出现自然灾害等原因而发生故障时，异地灾备中心可以用备份数据进行业务的恢复。目标读者企业网络部、业务运维部工作...

功能特性

此外，在数据库实例发生故障且无法定位原因时，可以利用克隆库复现故障场景，以便更好地定位故障原因。智能压测搜索分析查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析，用作深度异常的排查。SQL洞察安全审计内置了...

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

EMR Kafka磁盘故障运维

当出现磁盘故障时，需要根据故障原因、故障影响程度、业务需求（是否接受数据丢失、是否允许服务较长时间不可用）、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用，但允许丢失部分数据，则应考虑在可能会丢失数据的情况下，...

什么是故障

包括根因检查点（如故障原因、最近活动、注入方式、恢复方式等）、故障变更检查、监控检查，并需要对每一个故障明确责任人及团队；故障改进：支持对故障制定明确的改进及验收措施、责任人及完成时间，确保每个深度复盘后的故障都能对业务...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据名称类型示例值描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

什么是消息演练

随着应用规模的扩大，系统变得越来越复杂，不可避免地会走向分布式化。各种中间组件会相继被引入系统，其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象，其内部故障原因可能是多种多样的，需要进一步进行分析。

什么是用户体验监控

完整再现用户操作过程，从页面打开速度（测速）、请求服务调用（API）和故障分析（JS错误、网络错误等）稳定性（JS错误、崩溃、ANR 等）方面监测前端应用性能表现情况，并支持日志数据查询，帮助您快速跟踪定位故障原因，提升用户体验。...

查看ECS实例的操作记录

如果您在使用ECS实例的过程中遇到故障，可以通过查看ECS实例的操作记录识别可能的故障原因。背景信息操作记录以ECS实例为入口，对实例及其关联资源的所有操作进行操作审计，并且对操作记录的影响等级进行标注，在众多操作记录中高亮出...

托管节点池节点自动恢复

当发现节点故障时，ACK会根据故障原因触发对应恢复任务，并记录相应的事件。当恢复任务完成后，故障状态解除，节点恢复正常状态。当恢复任务完成后，故障状态依然存在，节点会被置为恢复失败状态。说明如果集群中存在多个节点池，节点池...

替换主机

当主机发生故障后，如果您创建专属集群MyBase 时主机故障处理策略选择的是手动替换主机，则您可以通过手动替换主机来解除故障。前提条件专属集群MyBase 引擎的为MySQL，且主机存储类型为本地SSD盘。背景信息当主机发生故障时，系统会...

替换主机

当主机发生故障后，如果您创建专属集群MyBase 时主机故障处理策略选择的是手动替换主机，则您可以通过手动替换主机来解除故障。前提条件专属集群MyBase 引擎的为MySQL，且主机存储类型为本地SSD盘。背景信息当主机发生故障时，系统会...

基本概念

概念描述故障转移（Fail Over）即容灾恢复，指您的 IDC 应用出现故障时，在阿里云上恢复应用的过程。故障恢复（Fail Back)当您的 IDC 内的环境恢复以后，将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective（数据...

多可用区部署架构

计算节点暂时要求位于主可用区，备可用区的存储热备集群用于主可用区故障时进行故障切换。当主可用区故障时，集群会自动进行主备可用区切换。具体操作请参见自动切换可用区。当出现灾难恢复或者让ECS就近访问的场景时，可以手动进行主备...

副本集架构

隐藏节点（Hidden节点）通过操作日志（oplog）同步主节点的数据，可在从节点故障时接替该故障节点成为新的从节点，也可在只读节点故障时接替该故障节点成为新的只读节点，保障高可用。隐藏节点仅用作高可用，对客户端不可见。隐藏节点不在...

业务连续性

您可以借助全局流量管理服务，在出现地域级别故障时，自动将域名解析指向到其他地域的应用上，实现故障时的流量切换，保障业务持续可用。在设计备服务时，您可以考虑将应用部署到其他边缘节点服务地域上，甚至也可以部署到其他就近的公共...

创建DDH

宿主机故障时自动迁移：开启宿主机故障时自动迁移服务：DDH因故障停机时，会自动迁移至健康的DDH。关闭宿主机故障时自动迁移服务：DDH发生故障停机后，您需要提交工单申请置换一台健康的DDH。默认值：开启宿主机故障时自动迁移服务。您也...

多可用区部署和更换主可用区

计算节点暂时要求位于主可用区，PolarDB 会在备可用区预留足够的资源用于主可用区故障时进行故障切换。多可用区架构如下。费用多可用区功能不需要支付额外费用。说明单可用区集群也会免费升级至多可用区集群。如何实现多可用区架构当...

多可用区部署和更换主可用区

计算节点暂时要求位于主可用区，PolarDB 会在备可用区预留足够的资源用于主可用区故障时进行故障切换。多可用区架构如下。费用多可用区功能不需要支付额外费用。说明单可用区集群也会免费升级至多可用区集群。如何实现多可用区架构当...

多站点高可用

出现故障灾难时，各接入站点自建互相备份，最终实现业务的高可用。实现原理设置方法地址池配置中国内地配置华北和华南两个地址池做互相备份、境外地区配置中国香港和新加坡两个地址池互相备份，共计建立4个地址池。操作步骤 ...

通过异步复制功能实现容灾恢复

背景信息通过异步复制功能实现容灾恢复时，您需要注意：异步复制功能支持故障切换和反向复制功能，当您异步复制关系中的主盘出现故障时，可以通过故障切换功能开启从盘的读写权限，然后将从盘挂载到临时创建的ECS实例上继续运行业务。...

通过一致性复制组实现容灾恢复

背景信息一致性复制组支持故障切换和反向复制功能，当生产站点中的云盘出现严重故障时，您可以通过故障切换功能开启容灾站点中云盘数据的读写权限，然后将容灾站点中的云盘挂载到临时创建的ECS实例上继续运行业务。当生产站点中的云盘故障...

使用说明

本文介绍将业务程序与远程登录程序进行进程隔离，以保证设备在故障时可以进行远程运维。背景信息设备基于物联网平台的消息通信能力开展业务，由于不同设备业务的复杂性，以及业务需要定期变更升级，导致设备的业务程序容易出现故障，导致...

创建专有宿主机

宿主机故障时自动迁移：开启宿主机故障时自动迁移服务：DDH因故障停机时，会自动迁移至健康的DDH。关闭宿主机故障时自动迁移服务：DDH发生故障停机后，您需要提交工单申请置换一台健康的DDH。默认值：开启宿主机故障时自动迁移服务。您也...

故障隔离

故障隔离是在服务实例出现故障时，实现实例级别的精细化摘流隔离，使故障影响范围更小，提高服务的可用性。添加故障隔离规则登录 SOFAStack 控制台。在左侧菜单栏选择中间件>微服务平台>服务网格>服务治理，然后单击故障隔离页签。单击...

同城容灾架构概述

非机房级故障（某个机房的单产品故障，例如其中一个机房的ECS服务器损坏），可以通过对单产品的灾备设计来保障发生故障时系统及时切换。应用设计相关参考标准应用设计相关参考标准如下：无状态化。分布式集群设计、避免单点逻辑出现。幂等...

产品优势

设备级容灾双网关主备设备接入模式，硬件故障时可及时更换。链路级容灾每个网关终端双链路密封接入，自动探测最优链路，故障时主动实时切换。安全混合云私网加密互连，Internet传输过程中加密认证。数据加密使用IKE和IPsec协议对传输...

自动故障剔除

自动故障剔除功能会自动监控 RPC 调用的情况，当某个节点出现故障时，可对故障节点进行权重降级，并在节点恢复健康时进行权重恢复。目前支持 Bolt 协议。配置方式将自动故障剔除的参数配置到 SOFABoot 中的 application.properties 即可。...

链路状态

当发生故障时，及时进行切换。操作步骤登录智能接入网关控制台。在智能接入网关页面，单击目标实例ID。在智能接入网关实例详情页面，单击高可用配置，可查看链路状态。绿灯：表示链路正常。红灯：表示链路故障。icmsDocProps={'...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见云...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见 ...

步骤五：应用容灾

故障切换当本地自建数据中心出现重大故障时，对服务器进行故障切换，确保在阿里云上正常运行业务。而当您的主站发生重大故障，需要在云上马上重启核心业务时，则需要进行故障切换操作。警告故障切换操作适用于被保护服务器已经出现严重...

操作日志

MSHA控制台提供查看操作日志功能，出现切流故障时，您可以通过查看操作日志来排查故障。操作步骤登录 AHAS控制台。在控制台左侧导航栏中单击多活容灾。在控制台左侧导航栏选择监控中心>操作日志。在操作日志页面，可以通过设置过滤...

设置宕机自动迁移

背景信息宕机自动迁移开启后，当DDH因故障停机时，会自动迁移至健康的DDH。若您未开启宕机自动迁移，DDH发生故障停机后，您需要提交工单申请置换一台健康的DDH。警告本地SSD型DDH（例如本地SSD型i2）不支持自行手动迁移和故障时自动...

忙时故障原因

新品推荐