有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,提高变更成功率与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...
每个数据分片均为双副本(分别部署在不同机器上)高可用架构,主节点发生故障后,系统会自动进行主从切换保证服务高可用。数据量较大的场景。整体读写请求的QPS压力较大的场景。吞吐密集型、高性能应用场景。读写分离架构 由代理节点、主从...
每个数据分片均为双副本(分别部署在不同机器上)高可用架构,主节点发生故障后,系统会自动进行主从切换保证服务高可用。数据量较大的场景。整体读写请求的QPS压力较大的场景。吞吐密集型、高性能应用场景。读写分离架构 由代理节点、主从...
因为 B 的故障率更高,系统会优先将 B 隔离。此时,若将最大隔离数量调整为 2,则 A、B 均会被剔除。搜索故障隔离规则 支持从两个维度模糊搜索:应用名称 规则名称 编辑故障隔离规则 您可以随时编辑已创建的故障隔离规则,规则提交后实时...
受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...
集群版-双副本高可用架构 集群架构(双副本)实例中的数据分片用于承载数据,每个数据分片均为双副本(分别部署在不同机器上)高可用架构,主节点发生故障后,系统会自动进行主备切换保证服务高可用。关于各组件的详细介绍,请参见 集群...
集群版-双副本高可用架构 集群架构(双副本)实例中的数据分片用于承载数据,每个数据分片均为双副本(分别部署在不同机器上)高可用架构,主节点发生故障后,系统会自动进行主备切换保证服务高可用。关于各组件的详细介绍,请参见 集群...
DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...
端 指标 Android 崩溃率 ANR率 自定义异常率 卡顿率 慢启动率 OOM率 网络错误率 页面崩溃率 平均FPS 平均丢帧数 应用内H5页面慢加载率 平均首屏时间(FP)平均页面可交互时间(TTI)iOS 崩溃率 自定义异常率 卡顿率 慢启动率 OOM率 网络...
如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...
如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...
灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...
RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...
受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...
AccessGatewayFailover事件提示您智能接入网关设备主IPsec链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。...
DeviceWanLinkDown事件提示您设备WAN链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'...
当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...
当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...
多节点的架构可用于保障集群的高可用,当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover)。此外,通过 PolarDB 的数据库代理功能,可在这些节点的基础上实现读写分离等功能,具体可参见 数据库代理。同个集群...
无容灾保护 当来自Consumer端的请求量突然增加时,如果Provider容量水位较高,会导致个别Provider发生故障:注册中心会将故障节点摘除,全量流量会给剩余节点。剩余Provider节点负载变高,大概率也会发生故障。最终所有Provider节点故障,...
本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...
RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越小,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。RTO:指故障发生后,期望...
该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。节点恢复速度在一分钟左右,当表数量明显增加时,恢复时间会更长。Hologres...
当RDS实例所在可用地域发生故障时,可基于灾备实例快速恢复服务。应用场景 创建RDS灾备实例可以为主实例提供数据备份和灾难恢复保障,当主实例出现故障或不可用时,灾备实例将自动接管数据服务,保证业务的连续性和可用性。风险等级 默认...
短时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...
短时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...
非机房级故障(某个机房的单产品故障,例如其中一个机房的ECS服务器损坏),可以通过对单产品的灾备设计来保障发生故障时系统及时切换。应用设计相关参考标准 应用设计相关参考标准如下:无状态化。分布式集群设计、避免单点逻辑出现。幂等...
在单个节点发生故障时,仍然能正常连接实例。语法:mongo"<连接地址>"参数说明:<连接地址>为实例的ReadOnly ConnectionStringURI地址或ConnectionStringURI地址。重要 您需要替换ReadOnly ConnectionStringURI地址或ConnectionStringURI...
说明 数据恢复点目标(Recovery Point Objective,简称RPO),指应用发生故障时预期的数据丢失量。例如,RPO为15分钟,表示在应用发生故障时,最近15分钟的数据无法在云上恢复。默认全库备份,支持对单个表或多个表进行备份恢复。指定时间...
若您未开启宕机自动迁移,DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。警告 本地SSD型DDH(例如本地SSD型i2)不支持自行手动迁移和故障时自动迁移。如果本地SSD型DDH出现故障,您可以 提交工单 申请人工迁移,但迁移后本地...
在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...
安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...
6、容灾预案:容灾预案可以帮助用户实现容灾演练,或发生故障时快速切换访问流量,包括创建容灾预案、执行/回滚等相关信息。7、日志信息:介绍全局流量管理运行状态的告警日志,包括:健康检查告警、健康检查恢复、地址池不可用、地址池...
如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...
当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...
高压缩引擎(X-Engine)多节点架构可用于保障集群的高可用,当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover),保证了服务可用性不低于99.99%。高压缩引擎(X-Engine)多节点架构图如下:产品优势 超大存储...
当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...
当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...
当云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。本文为您介绍云盒维修相关的流程,以及如何响应云盒维修事件。背景信息 配置云盒计算资源时,您需要配置一定的...
问题原因 如果实例的内存使用率不高,但某个数据分片节点的内存使用率较高,说明发生了内存倾斜。解决方案 检查是否存在大Key,并拆分大Key 查找大Key 通过 离线全量Key分析 找出大Key。更多找出大Key的方法,请参见 发现并处理Redis的大...