压扩发生故障怎么办-压扩发生故障怎么办文档介绍内容-阿里云

高性能版实例

即使计算节点发生故障，也可以保证实例无数据丢失。高可用 AnalyticDB PostgreSQL版高性能版由于减少了一个副本，在高可用方面出现了一些下降，在物理机故障等极端情况下，集群恢复的时间会变长（8小时以内）。高性能版通过ESSD多副本技术...

功能特性

此外，在数据库实例发生故障且无法定位原因时，可以利用克隆库复现故障场景，以便更好地定位故障原因。智能压测搜索分析查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析，用作深度异常的排查。SQL洞察安全审计内置了...

容灾管理服务介绍

针对有高可用需求的用户，CADT容灾管理服务提供规划、优化、部署、演练高可用业务的能力，在业务上线前及业务上线后定期进行容灾演练，验证系统是否能够抵御资源故障或者AZ故障，保障系统健壮性。主要功能容灾规划在用户部署资源前，通过...

跨可用区容灾

确保操作人员熟悉容灾恢复流程，确保在主站真正发生故障时，操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下：在左侧导航栏，选择连续复制型容灾>云上容灾。在页面右上角，选择容灾站点对。单击容灾中心的受保护服务器页签。单击...

故障协同处理（基于钉钉）

时间线：展示故障的时间线记录，其中有7个节点必须完善详细内容，节点已用红星标注，包含：故障发生、故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘按钮：故障恢复后，需进行故障...

如何管理故障

更新故障通知：在故障处理的过程中，当故障进展发生变化，包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下，可更新故障过程中的内容，并在故障详情页点击更新故障通知，选择需要的故障通告类型，并最终确认发出故障...

故障应急协同

故障通告及更新基于7x24监控值班工作特性，对于业务异常达到故障等级时，以用户定制的（语音、短信、IM）的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组，并持续更新直至故障结束。故障应急协同群 故障发生后，可以...

应用场景

以此，降低产品使用过程中故障发生概率，提高故障恢复效率，进而实现产品高可用性的有效提升。机房级容灾同城双活同一个城市，建设两个机房环境，两地距离 50 km 以内，万兆光纤专线互连，业务应用层面可以两个机房同时提供业务服务，当...

诊断决策树

对于已知的明确故障，可以根据诊断现象，编排诊断决策树，进而故障发生时执行，完成故障定位。对于未知的故障，您可以依据运维经验，编排出常见的排查路径，辅助快速故障定位。新建诊断决策树登录高可用管理控制台。在左侧导航栏上，单击 ...

诊断规则

而后，在实际故障发生时，即可执行自动化、标准化的故障排查，并直接输出诊断报告，反馈诊断结果。故障诊断功能有效提升了故障排查效率，实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成，诊断规则...

变更管理简介

有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案，提高变更成功率与可靠性。变更有记录，所有变更可回溯。核心功能针对变更操作的审批管控以及所有变更记录基础配置：支持自定义配置变更系统、变更类型...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生，导致模块不能正常运行，例如Producer无法发送消息，这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象，其内部故障原因可能是多种多样的，需要进一步进行分析。

修改DNS服务器

重要阿里云注册域名不支持同时配置多家厂商DNS服务器，因为NS记录缓存时间一般为48小时，部分场景下的故障发生时，NS缓存短时间无法消除，依然会有解析请求到故障DNS。同时不同厂商之间的解析数据不一致问题也容易引发故障。阿里云注册...

产品架构介绍

多活流量必须经过接入层，以便在故障发生时，通过接入层切换入口流量。比例分流：接入层支持按比例将流量分流到机房。特殊场景下，可以将机房流量切零，从而实现故障情况下的流量切换。精准路由：接入层支持根据HTTP请求Header/Cookie/...

服务等级目标SLO概述

告警规则告警规则能够根据故障的严重程度，在故障发生时及时发出不同等级的提醒，帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则，适用于大多数场景。多燃烧率策略下，短时间内的高故障率或持续...

服务等级目标SLO概述

告警规则告警规则能够根据故障的严重程度，在故障发生时及时发出不同等级的提醒，帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则，适用于大多数场景。多燃烧率策略下，短时间内的高故障率或持续...

Bloom

虽然TairBloom支持扩容，但在实际使用过程中请避免发生扩容操作，建议将该功能视为保障措施，若实际容量超过预设容量时，TairBloom能通过扩容操作，保障业务正常写入，规避线上事故。下表为通过 BF.RESERVE 创建不同初始容量和错误率的key...

AIOps 解决方案专家服务内容说明

根据智能AI算法和阿里多年积累的AIOps经验，在故障发生后，提供自动化解决方案。在方案设计中我们提供包括时序预测和根因分析、历史数据预测的3大类算法场景的设计，更多具体算法详见《10.1算法列表》《智能故障发现设计方案》3 定制化业务...

Tair选型指南

3 选择容灾方案云原生内存数据库Tair 实例若因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择，可满足不同的业务场景。4 预估内存规格提前...

云数据库Redis版产品选型必读

选择容灾方案当云数据库Redis实例因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择，可满足不同的业务场景。选择大版本推荐使用更新的大版本...

网络游戏：心动网络股份有限公司

同时在主实例发生故障的时候，系统能在短时间（30s~60s）内完成快速切换，确保在线业务能够在保证数据完整性的同时快速恢复以提供正常的服务。丰富的业务支持 PolarDB 能够100%兼容MySQL 5.6、MySQL 5.7和MySQL 8.0，完全兼容MySQL各种生态...

集群管理常见问题

开启部署集可防止多个ECS实例部署在同一个物理机上，避免当某个物理机发生故障时影响多个ECS实例，导致EMR本地HDFS数据丢失。受ECS部署集本身的限制，目前最多支持20台ECS实例加入部署集。具体操作请参见开启部署集。扩容集群如何指定部署...

多主集群（库表）概述

多主互备（省去备节点）如果某个主节点发生故障，可秒级切换到其他低流量主节点，同时由于没有额外的用于热备的闲置资源，成本降低一半。全局只读节点可以在全局只读节点上读取到所有写节点的数据，方便执行汇聚库的请求。详情请参见全局...

多主集群（库表）商业化

多主互备（省去备节点）如果某个主节点发生故障，可秒级切换到其他低流量主节点，同时由于没有额外的用于热备的闲置资源，成本降低一半。全局只读节点可以在全局只读节点上读取到所有写节点的数据，方便执行汇聚库的请求。适用场景多主...

集群高可用架构推荐配置

多可用区的地域：所有托管组件均严格采用多副本、多AZ均衡打散部署策略，确保在单个可用区或节点发生故障时，集群仍然能够正常提供服务。单可用区地域：所有托管组件均严格采用多副本、多节点打散部署策略，确保在单个节点发生故障时，集群...

节点弹性大盘

最近扩容活动：在所选择的时间范围内的集群发生节点扩容活动总数。最近缩容活动：在所选择的时间范围内的集群发生节点缩容活动总数。Pod详情 Pod详情由两种图表构成：不可调度Pod趋势图：展示的是集群中状态为 Pending 的Pod总数在时间维度...

ADP底座/本地运维控制台

组件运维操作可视化：本地运维控制台新增以下几项白屏化运维操作 prometheus、loki、local：新增水平扩容、垂直扩容、PVC存储扩缩容所有谐云中间件：新增水平扩容、垂直扩容、PVC存储扩缩容、主备切换本地运维控制台的日志查询，支持按...

附录：SOFAStack 产品目录

传统实现方式是在系统代码里指定任务的执行顺序，当业务发生变化时需要修改代码才可以正常工作，可维护性很差。使用 SOFAStack 任务调度中的任务编排功能，可以轻松完成任务之间的依赖调整，大大提高了可维护性，并可以直观地看到任务的...

块存储FAQ

当监控到硬件故障或争用发生时，阿里云会进行资源调度或维修（根据基础设施损坏程度）。SSD云盘具备怎样的I/O性能？请参见块存储性能。SSD云盘适用于哪些应用场景？SSD云盘具有高性能、高可靠性等特点，适合数据可靠性要求高的I/O密集型...

监控告警

当查询成功率发生异常下降时，考虑是否出现了集群、节点的故障。查询平均耗时集群每分钟所有查询生命周期结束的平均时间。ms 99th 查询耗时展示给定时间内，统计升序排列排在第99%位置的请求的响应时间，可以反映集群慢查询的速度。ms ...

DAS Auto Scaling弹性能力

能力介绍：针对即将达到用户已购买规格上限的实例，DAS存储自动扩容服务可以进行磁盘空间预扩容，避免出现因数据库磁盘占满而影响用户业务的事件发生。在该服务中，用户可自主配置扩容的阈值比例，也可以采用DAS服务预先提供的90%规格上界...

监控、诊断和故障排除

相对于传统应用程序，开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本，但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息，帮助您深刻洞察程序行为，及时发现并快速定位问题。本文主要描述...

灾备规划

RTO和RPO要求应用容灾有两个核心的指标：RPO：指应用发生故障时可以容忍的数据丢失量。数据越重要，RPO就要求越小。RPO越小，往往要求数据备份、复制频率更高，对生产环境、网络的压力也会越大，成本通常也越高。RTO：指故障发生后，期望...

设置扩缩容策略和多实例规格降低成本

在创建伸缩组时配置多个可用区的扩缩容策略，确保某个可用区资源紧张或发生故障时，伸缩组可以在其他可用区进行资源调度，保证业务的高可用性。同时，在创建伸缩配置时也支持设置多实例规格，可避免因单个实例规格库存不足而导致伸缩活动...

整机恢复

当ECS整机发生系统故障或者错误操作时，您可以通过备份点的克隆和恢复功能，实现应用版本回退。本文介绍整机恢复的相关操作。前提条件已创建ECS整机备份。具体操作，请参见创建ECS整机备份。重要当源ECS存在时，支持直接恢复源ECS。当源...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时，您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点，进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件已创建ECS整机备份。具体操作，请参见备份ECS整机。背景信息云盘恢复...

DeviceWanLinkSwitched

告警信息事件名称事件级别状态码状态描述 DeviceWanLinkSwitched WARN up Device Wan Link Switched 可能原因 WAN链路原有链路发生了故障，切换到备用链路。处理方法提醒用户WAN链路发生了切换，用户查看原有WAN链路并决定是否主动切...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时，您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点，进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件已创建云盘备份。更多信息，请参见创建云...

故障处理流程

当智能接入网关设备发生网络故障后，您可以先观察现象、收集信息，然后对现象和信息进行分析诊断，尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明通过SAG-100WM访问阿里云，发现故障，请参见以下...

平滑扩容

本文将介绍 PolarDB-X 1.0 平滑扩容的基本原理。当逻辑库对应的底层存储已经达到物理瓶颈时，需要对底层存储进行水平扩展。例如当磁盘余量接近30%时，您可以在控制台上通过平滑扩容来改善。平滑扩容是一种在线水平扩容方式，通过把原有的分...

压扩发生故障怎么办

新品推荐