被测要素发生故障怎么办-被测要素发生故障怎么办文档介绍内容-阿里云

使用API终止和恢复VBR来确认冗余物理专线

当一条物理专线发生故障后，健康检查辅助系统自动切换业务流量到另外一条正常的物理专线上，从而保障您的业务高可用。自动切换的时间周期受您的VPC路由条目数量的影响。通常情况下，您的业务可以在12秒内完成自动切换。下表列出本地IDC通过...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下，可使用MSHA切流功能将流量全部切换到另外的单元格，进行快速业务恢复（这里区别于传统的思路，不是去排查、处理和修复故障，而是立即使用切流进行恢复，将业务恢复和故障恢复解耦）。容灾切换...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时，能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下，数据的完整性、可恢复性和可用性不受到严重影响，以保障业务的持续运行和数据的...

GTM如何实现同城容灾

创建1个全局访问策略，解析请求流量选择全局，主地址池集合选择「业务中心01」地址池和「业务中心02」地址池，负载均衡策略选择返回全部地址，此设置可实现两个数据中心同时提供服务和发生故障时系统自动摘除故障地址的效果。...

流水单据型业务场景多活实践

在北京单元发生故障的情况下，可以使用MSHA切流功能将受影响的用户流量切换到另外的单元，进行快速业务恢复。说明这里区别于传统的解决思路，不是去排查、处理和修复故障，而是立即使用切流进行恢复，将业务恢复和故障恢复解耦。容灾切换...

应用场景

调测成本占总生产成本比重高达30-40%，单个产品平均耗时超过1个小时。企业通过云端汇总、打通生产关键环节数据，以测试/检测数据为主体，使用算法模型进行制程能力的综合分析、评估、优化。最终，检测指标项从平均300个点位降到200个，产品...

故障演练

例如，模拟在高速通道冗余链路中的一条链路发生故障时，网络流量会自动切换至其他冗余链路的场景。借助该工具，您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要故障演练会通过将被演练的资源关闭，使资源处于人工构造的故障...

集群系列

且单个只读实例没有灾备，因此为了保障业务的可用性和连续性，建议至少创建两个只读实例，以确保某一个只读实例发生故障时，另一个只读实例可以继续提供服务。购买集群系列实例时，建议您选择多可用区部署，以实现跨可用区的容灾能力。架构...

本地盘最佳实践

如果本地盘发生故障、物理服务器发生宕机，或者人为误操作，本地盘会丢失数据。请勿在本地盘上存储需要长期保存的业务数据。但云盘采用分布式三副本机制，能防止意外硬件故障导致的数据不可用。如果应用没有多节点数据冗余架构，强烈建议您...

主从实例读写分离部署（共享存储）

该方案为当前每个实例内部默认启用，当系统发生故障时，无需手工运维介入，系统可以自动恢复。在恢复期间，如果查询算子需要访问恢复中的节点，则查询会立即失败。Hologres从V1.1版本开始，采用全新恢复机制，节点恢复速度在一分钟左右，比...

什么是故障演练

适用场景故障演练可适用于以下典型场景：衡量微服务的容错能力通过模拟调用延迟、服务不可用、机器资源满载等，查看发生故障的节点或实例是否被自动隔离、下线，流量调度是否正确，预案是否有效，同时观察系统整体的QPS或RT是否受影响。...

故障管理

故障管理概述故障管理是源于ITIL的一个概念，在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营，将组件失败对业务所造成的负面影响降到最低，从而确保满足事先与业务客户之间所约定的服务级别...

灾备规划

RTO和RPO要求应用容灾有两个核心的指标：RPO：指应用发生故障时可以容忍的数据丢失量。数据越重要，RPO就要求越小。RPO越小，往往要求数据备份、复制频率更高，对生产环境、网络的压力也会越大，成本通常也越高。RTO：指故障发生后，期望...

常见问题-FAQ

答：经过测试团队对GTM多次测试验证，当应用服务发生故障时，GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因，如使用不同的拨测平台...

FAQs

答：经过测试团队对GTM多次测试验证，当应用服务发生故障时，GTM能在 3分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因，如使用不同的拨测平台、...

应用场景

以此，降低产品使用过程中故障发生概率，提高故障恢复效率，进而实现产品高可用性的有效提升。机房级容灾同城双活同一个城市，建设两个机房环境，两地距离 50 km 以内，万兆光纤专线互连，业务应用层面可以两个机房同时提供业务服务，当...

MSE注册配置中心高可用最佳实践

无容灾保护当来自Consumer端的请求量突然增加时，如果Provider容量水位较高，会导致个别Provider发生故障：注册中心会将故障节点摘除，全量流量会给剩余节点。剩余Provider节点负载变高，大概率也会发生故障。最终所有Provider节点故障，...

诊断决策树

对于已知的明确故障，可以根据诊断现象，编排诊断决策树，进而故障发生时执行，完成故障定位。对于未知的故障，您可以依据运维经验，编排出常见的排查路径，辅助快速故障定位。新建诊断决策树登录高可用管理控制台。在左侧导航栏上，单击 ...

服务发布策略

当新版本v2存在问题或者发生故障时，可以快速切回旧版本v1。蓝绿部署的优点：部署结构简单，运维方便。服务升级过程操作简单，周期短。蓝绿部署的缺点：资源冗余，需要部署两套生产环境。新版本故障影响范围大。A/B测试 A/B测试基于用户...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见 ...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见云...

变更管理简介

有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案，提高变更成功率与可靠性。变更有记录，所有变更可回溯。核心功能针对变更操作的审批管控以及所有变更记录基础配置：支持自定义配置变更系统、变更类型...

修改DNS服务器

重要阿里云注册域名不支持同时配置多家厂商DNS服务器，因为NS记录缓存时间一般为48小时，部分场景下的故障发生时，NS缓存短时间无法消除，依然会有解析请求到故障DNS。同时不同厂商之间的解析数据不一致问题也容易引发故障。阿里云注册...

混合云应用双活容灾最佳实践

说明演练前，基于MSHA流量监控或其他监控产品，确定业务稳态的监控指标（如日常情况RT≤200ms，错误率），以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二：应用故障注入这里使用阿里云故障演练产品，对...

产品架构介绍

多活流量必须经过接入层，以便在故障发生时，通过接入层切换入口流量。比例分流：接入层支持按比例将流量分流到机房。特殊场景下，可以将机房流量切零，从而实现故障情况下的流量切换。精准路由：接入层支持根据HTTP请求Header/Cookie/...

免费体验PolarDB MySQL热备无感秒切

压测细节如下：测试场景：oltp_write_only，即测试PolarDB集群一主一只读节点的写入性能压测数据表大小：table_size=1000000，-tables=16，即16张表，每张表100万条数据测试并发线程数：threads=16，即16并发线程压测持续时间：time=180...

云盘异步复制概述

启动云盘异步复制功能通过异步复制功能实现容灾恢复您创建并启动云盘异步复制关系后，如果主盘发生故障，您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复删除云盘异步复制关系创建...

ST_AsMVTEx

功能同 ST_AsMVT，但是相较于 ST_AsMVT，基于不同矢量要素之间的关系，过滤对显示效果影响较小的矢量要素，从而减小MVT大小，提升可视化效率。过滤的效果由新增参数scale_factor控制。新增参数 mvt_size_limit，限制一个MVT可以包含的矢量...

ST_AsMVTEx

功能同 ST_AsMVT，但是相较于 ST_AsMVT，基于不同矢量要素之间的关系，过滤对显示效果影响较小的矢量要素，从而减小MVT大小，提升可视化效率。过滤的效果由新增参数scale_factor控制。新增参数 mvt_size_limit，限制一个MVT可以包含的矢量...

ST_AsMVTEx

功能同 ST_AsMVT，但是相较于 ST_AsMVT，基于不同矢量要素之间的关系，过滤对显示效果影响较小的矢量要素，从而减小MVT大小，提升可视化效率。过滤的效果由新增参数scale_factor控制。新增参数 mvt_size_limit，限制一个MVT可以包含的矢量...

图形渲染控制器

遮挡描边#fee400 要素被遮挡区域的描边轮廓颜色。遮罩样式遮罩样式默认值说明启用遮罩 true 启用或关闭遮罩高亮效果。遮罩颜色#6f812a 设置遮罩的遮罩颜色，请参见颜色选择器。疏密程度(0.0,0.0)设置遮罩的疏密程度。强度 10.0 调整...

一致性复制组概述

容灾站点除了生产站点以外另外建立容灾站点，当生产站点发生故障时，容灾站点可以接管业务，实现业务不间断。恢复点目标（RPO）由于云盘异常可能丢失的数据量，以时间为单位，是异步复制功能的数据指标之一（一致性复制组功能的RPO默认为...

组复制简介

数据强一致性在组复制中，事务总是先传输到集群中其他节点，然后写入Binlog文件，这保证无论主节点在什么时刻发生故障，重新启动后数据都不会比集群选出的新主节点多。旧主节点故障重启后，能够自动加回集群，拉取它缺失的Binlog，就...

源为PolarDB-X的功能规范和约束说明

警告异常切流是指源实例或者源实例所在的数据中心发生故障时进行的切流操作。这类操作都是有损操作。在出现故障（如网络中断、机房批量设备故障或互联网数据中心IDC故障），且DTS任务存在延迟的情况下，此时如更新至目标库的最后一条数据...

源为PolarDB-X的功能规范和约束说明

警告异常切流是指源实例或者源实例所在的数据中心发生故障时进行的切流操作。这类操作都是有损操作，例如导致数据不一致或任务失败。在出现故障（如网络中断、机房批量设备故障或互联网数据中心IDC故障），且DTS任务存在延迟的情况下，...

集群高可用架构推荐配置

多可用区的地域：所有托管组件均严格采用多副本、多AZ均衡打散部署策略，确保在单个可用区或节点发生故障时，集群仍然能够正常提供服务。单可用区地域：所有托管组件均严格采用多副本、多节点打散部署策略，确保在单个节点发生故障时，集群...

托管节点池节点自动恢复

当节点的运行状态发生变化并持续一段时间后，ACK将判定该状态符合故障状态，存在节点故障。当发现节点故障时，ACK会根据故障原因触发对应恢复任务，并记录相应的事件。当恢复任务完成后，故障状态解除，节点恢复正常状态。当恢复任务完成后...

测试指标

被测系统不一样，测试目的不一样，测试需求也不一样，考察的指标项也有很大差别。部分系统涉及额外的前端用户接入能力的，需要考察用户接入并发能力指标。对于批量处理过程的性能验证，主要考虑批量处理效率并估算批量处理时间窗口。如测试...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生，导致模块不能正常运行，例如Producer无法发送消息，这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象，其内部故障原因可能是多种多样的，需要进一步进行分析。

围绕混沌工程的平台实践

因此混沌工程是一门学科，它提供了基本的理论指导，而故障演练是混沌工程的具体实践，通过向目标系统注入真实可能发生的故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台，目标是成为混沌...

被测要素发生故障怎么办

新品推荐