AccessGatewayFailover事件提示您智能接入网关设备主IPsec链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。...
DeviceWanLinkDown事件提示您设备WAN链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'...
DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...
当主用链路发生故障时,自动切换至备用链路。您可以在智能接入网关管理控制台查看当前智能接入网关设备接入Internet的链路状态。前提条件 您已经从运营商处购买了一个可传输数据流量的4G卡并插入到了智能接入网关设备上。背景信息 智能接入...
SAG-1000设备支持链路级的专线备份,当主用链路发生故障时,自动切换至备用链路。您可以在智能接入网关管理控制台查看当前专线备份链路状态。前提条件 您已经创建了专线和虚拟边界路由器(VBR)实例。详情请参见 什么是高速通道?您已经将...
告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkSwitched WARN up Device Wan Link Switched 可能原因 WAN链路原有链路发生了故障,切换到备用链路。处理方法 提醒用户WAN链路发生了切换,用户查看原有WAN链路并决定是否主动切...
DataSource 日志 SOFATracer 对标准的 JDBC 数据源进行埋点,输出 SQL 语句执行链路数据。日志默认输出为 JSON 数据格式。DataSource 摘要日志 datasource-client-digest.log 是 DataSource 摘要日志,以 JSON 格式输出的数据。日志样例如...
复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...
背景信息 智能接入网关支持以下系统事件:事件类型 事件名称 详情 维护 接入点切换 AccessGatewayFailover 设备发生主备切换 DeviceSwitched 设备WAN链路切换 DeviceWanLinkSwitched 异常 设备被攻击 DeviceHacked 设备链路故障 ...
从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的...
读链路异地多活而写链路保持单点(单地域写),这样建设成本低、改造内容少、投入产出比高。所以接下来,我们将导购业务读链路相关的应用、中间件、数据库进行异地部署和多活改造。异地多读架构改造 基于MSHA多活容灾解决方案,可以快速的...
读写分离模块会自动对只读实例进行健康检查,当发现某个实例发生宕机或延迟超过阈值时,系统将不再向该实例分配读请求,而是在剩余的健康实例间进行分配,以此确保单个只读实例发生故障时,不会影响应用的正常访问。当实例被修复后,RDS会...
源端执行大量DDL操作、网络、目的库性能等问题,可能会导致DTS任务存在延迟,此时如刚好遇到机房故障,且同步或迁移至目标库的最后一条数据的时间戳与故障发生时的时间戳之差大于RPO(如5分钟),那么切流需要非常谨慎,建议您暂时不要执行...
源端执行大量DDL操作、网络、目的库性能等问题,可能会导致DTS任务存在延迟,此时如刚好遇到机房故障,且同步或迁移至目标库的最后一条数据的时间戳与故障发生时的时间戳之差大于RPO(如5分钟),那么切流需要非常谨慎,建议您暂时不要执行...
如果大量请求突然集中在一台或少量机器,很可能是流量不均导致的热点问题,然后再结合问题发生点的变更事件,快速定位造成故障的错误变更,及时回滚。在 调用链分析 页面设置按IP聚合,如下图所示,可以发现大部分流量集中在opentelemetry-...
答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...
选择容灾方案 图 3.Tair容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主从节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。...
此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...
此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...
当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...
启动云盘异步复制功能 通过异步复制功能实现容灾恢复 您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复 删除云盘异步复制关系 创建...
多活流量必须经过接入层,以便在故障发生时,通过接入层切换入口流量。比例分流:接入层支持按比例将流量分流到机房。特殊场景下,可以将机房流量切零,从而实现故障情况下的流量切换。精准路由:接入层支持根据HTTP请求Header/Cookie/...
创建1个全局访问策略,解析请求流量 选择 全局,主地址池集合 选择「业务中心01」地址池和「业务中心02」地址池,负载均衡策略 选择 返回全部地址,此设置可实现两个数据中心同时提供服务和发生故障时系统自动摘除故障地址的效果。...
主地址(Primary Endpoint)主节点的访问点,当发生故障切换(Failover)后,系统会将访问点自动指向新的主节点。集群地址(Cluster Endpoint)整合集群下的多个节点,对外提供一个统一的读写地址,可以设置为只读或读写。集群地址具有自动...
主地址(Primary Endpoint)主节点的访问点,当发生故障切换(Failover)后,系统会将访问点自动指向新的主节点。集群地址(Cluster Endpoint)整合集群下的多个节点,对外提供一个统一的读写地址,可以设置为只读或读写。集群地址具有自动...
微服务体系在阿里巴巴内部广泛使用,历经10多年双十一考验,甚至经历多次断网、节点全挂、存储不可用等各种高危故障,由此沉淀出了许多宝贵经验,阿里云微服务引擎 MSE 生长在此基础之上,默认具备许多项高可用能力。服务发现与配置管理高...
借助混沌工程可以了解到问题发生时对系统、业务的影响面是否符合预期。梳理演练场景 对于示例应用,可以按照以下思路来梳理演练场景:明确缓存监控的指标。分析影响这些指标可能的因素、故障场景、参数等。因为客户端层面的影响面可控,...
同时MaxCompute统一元数据能力支持元数据跨地域高可用,则当主集群地域发生故障且无法恢复时,通过修改项目归属地域的元数据,将项目快速切换到备份集群地域,实现业务的无缝恢复,示意图如下所示。重要 目前跨地域灾备功能处于邀测阶段,...
根因定位能力增强 根因定位时序数据支持显示异常点和风险发生点。根因定位算法配置支持设置异常置信度。巡检支持提供当日的每日报告 巡检支持提供当日的每日报告。插件执行的 preCheck 优化 支持提前检查 bash/python/timeout 等命令是否...
主地址(Primary Endpoint)主节点的访问点,当发生故障切换(Failover)后,系统会将访问点自动指向新的主节点。集群地址(Cluster Endpoint)整合集群下的多个节点,对外提供一个统一的读写地址,可以设置为只读或读写。集群地址具有自动...
备节点的故障发现时长为秒级,在99%的场景下,备节点从故障发生到节点恢复不超过10分钟。在好的架构下才能实现高可靠性。实现RPO=0的成本极高,需要单独购买研发服务。数据可靠性一般,取决于单块磁盘的损害概率。实现RPO=0的成本极高,...
应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用或接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用、接口的...
分布式链路跟踪 分布式链路跟踪(Distributed System Tracing,简称 DST)是一款面向分布式架构、微服务架构和云原生架构的应用可观察性的金融级解决方案,帮助用户厘清应用间复杂的调用关系,迅速定位故障或者缓慢节点。产品架构 产品优势...
本文介绍边缘网络加速(Edge Network Acceleration,ENA)-点对点连接服务。加速上云连接服务,为客户提供客户DC或客户企业内网之间的端到端快速连接。本服务基于A24-1和B13电信业务许可证运营。网络拓扑 如下图所示,加速上云连接服务协助...
说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...
而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位故障原因,从而提高故障排查效率。提高监控可视化程度:一体化性能监控可以通过统一可视化界面,综合展示不同类型的性能监控数据,使监控数据更加直观...
链路冗余及容灾 云企业网具有高可用及网络冗余性,全网任意两点之间至少存在4组独立冗余的链路。即使部分链路中断,云企业网也可以保证客户的业务正常运行,不会发生抖动及中断。系统化管理 云企业网具有系统化的网络监控能力,自动检测...
概述 当网站访问很慢或无法访问时,若已经排除显著的问题,而使用ping命令检测到有明显丢包时,建议您做链路测试。在Windows环境中,推荐优先使用WinMTR工具,或者tracert命令行进行链路测试以判断问题来源。通常情况下,链路测试步骤如下...
发现问题 客户接入 Node.js 性能平台 后,通过监控经常出现内存增长导致的 OOM,于是客户加上了一条告警规则:@heap_used/heap_limit>0.5,目的是在堆较小但是发生泄漏时能正常输出 heapsnapshot 文件用于分析。经过授权,我们得以进入客户...
RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...