产品架构

本文介绍故障演练的产品架构,以下简称故障演练为AHAS Chaos。产品架构图 AHAS Agent AHAS Agent安装在指定的目标机器上,用来执行服务端下发的故障注入命令以及采集演练相关的必要信息,例如CPU、内存占用等。主要有以下特点:快捷高效:...

一键诊断

在数据库出现故障时,您可以利用一键诊断功能,快速诊断选定时间段内数据库性能情况,直观地查看数据库性能情况的全貌,快速定位异常原因。前提条件 实例为如下版本:RDS MySQL 8.0 高可用系列或集群系列 RDS MySQL 5.7 高可用系列或集群...

大数据型

大数据存储密集型实例规格族d3s d3s的特点如下:实例配备12 TB大容量、高吞吐SATA HDD本地盘,辅以最大64 Gbit/s实例间网络带宽 支持在线更换盘,支持热插拔盘,避免导致实例停机 如果单块本地盘出现故障,您会收到系统事件,确认响应...

功能优势

丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,包括了以下场景:常见的基础设施资源例如CPU、内存、磁盘等。应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练...

网络诊断

容器服务平台提供网络诊断功能,帮助您诊断网络常见问题,例如Pod之间不通、集群到公网访问不通、公网到LoadBalancer不通。本文介绍网络诊断的基本原理、使用方式、以及如何针对常见网络不通的场景定位网络问题和使用网络诊断。重要 使用...

容灾演练断网方式说明

可用区断网正是为了模拟此类真实故障而提供的机房级故障模拟能力。可用区断网方式采用租户隔离技术,在用户指定VPC网络下对可用区交换机层面进行网络访问控制(网络ACL),实现子网流量的受控访问。使用场景 机房级业务整体不可用。机房级...

应用场景

本文介绍ASM的常见应用场景。流量管理 通过ASM,可以轻松实现基于配置的流量管理:将流量管理与基础设施管理分隔开来,并提供了许多独立于应用代码之外的流量管理功能,在部署规模逐步扩大的过程中帮助简化流量管理。管理 服务网格 的服务...

应用场景

能够解决 多源监控集成:支持多个常见监控系统集成,简单配置即可完成集成对接。报警统一处理:所有报警进行集中降噪处理,抑制收敛,避免报警风暴。事件闭环管理:对报警生成事件,进行全生命周期管理,不遗漏重大事件。体系化故障闭环...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错性。但随着服务拆分,更多组件的引入,分布式系统的复杂...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

变更发布策略

常见的做法包括基于HTTP Header和Cookie,将特定请求或用户灰度至新版本,降低故障影响范围。金丝雀发布:通过调整流量权重比例,逐步将流量从老版本切换至新版本。同时对老版本服务进行缩容,对新版本进行扩容,相比蓝绿发布资源利用率较...

接入DAS的实例状态概览

无法连接 网络连接异常或目标实例出现故障导致无法连接。监控异常 DAS数据库网关(DBGateway)出现异常,详情请参见 DBGateway常见问题。连接正常 目标实例已正确连接至DAS控制台,您可以使用集群管理、实例监控和告警服务等功能,详情请...

网关一体机告警介绍

本文介绍网关一体机中磁盘故障、电源故障等硬件告警,以及CPU使用率、内存使用率等软件告警信息。监控项 报警阈值 报警通道 恢复是否通知 疲劳度 是否实时 CPU使用率 一分钟内平均使用率超过95%客户邮箱 是 每日最多5封 是 内存使用率 一...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

使用云监控功能监控网站环境(部署于ECS实例)

设置进程监控 对于常见的Web应用,设置进程监控,不仅可以实时监控应用进程的运行情况,还有助于排查处理故障。具体操作,请参见 添加进程监控。设置站点监控 在云服务器外层的监控服务,站点监控主要用于模拟真实用户访问情况,实时测试...

应用场景

场景一:面向大中型企业的多地容灾高可用网络架构 当本地数据中心的关键业务对可用性要求极高时,建议在多个接入点建立专线连接,该拓扑确保了因光纤切断、设备故障或接入点位置故障导致的连接故障的恢复能力。自主申请专线和共享合作伙伴...

什么是消息演练

消息演练概述 目前市面上有RocketMQ、Kafka、RabbitMQ等流行的消息中间件服务,消息演练功能将这些常见的中间件进行了统一抽离,为消息服务安排分配了精选后的演练最佳实践。您无需分析每种消息服务需要什么演练场景,仅需选择演练方案即可...

单节点架构

常见问题 问:单节点架构是否提供高可用?答:不提供。单节点架构只有一个副本,极端情况下如发生故障会造成30分钟左右服务不可用状态,建议您在生产环境中使用副本集架构或分片集群架构。问:单节点实例是否支持增量数据迁移与同步、按...

后续指引

介绍:SQL SQLML PyODPS MapReduce Mars Spark Graph 外部表 Java SDK Python SDK JDBC 实践:数据开发最佳实践 常见问题:错误码 SQL常见问题 PyODPS常见问题 MapReduce常见问题 Spark常见问题 外部表常见问题 Java SDK常见问题 Python ...

FTP常见问题排查

概述 本文主要介绍使用阿里云ECS实例搭建FTP时,遇到的一些常见问题的处理方法。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS、...

灾备方案

图 1.Tair 容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案...

灾备方案介绍

图 1.Redis容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案...

常见问题概览

本文汇总了云数据库MongoDB的常见问题。说明 如果您遇到其他问题,也可查阅 MongoDB错误码汇总 匹配错误信息。兼容性与变配 热点问题 其他常见问题 云数据库MongoDB版和MongoDB有什么关系?云数据库MongoDB版支持哪些数据库版本?云数据库...

事件分析概述

微服务领域:微服务在现代开发架构中比较常见,该架构由小型、松耦合、可独立部署的服务集合而成,这导致微服务架构很难调试,系统中某一部分的小故障可能会导致大规模服务崩溃。很多时候不得不跳过某些正常服务来调试单个请求。事件总线...

OSS文件上传和下载失败的排查方法

在使用OSS SDK上传或下载文件时,如发生报错,请参见 OSS SDK使用中常见问题。OSS文件上传失败 当上传文件失败时,请参见以下操作进行排查处理:检查本地与OSS的网络是否存在异常。若存在网络故障,请使用ping命令测试与OSS的网络连通性,...

AIOps套件概述

集群诊断 集群诊断提供一键故障诊断能力,辅助您定位集群中出现的问题,包括Pod诊断、节点诊断、Service诊断、Ingress诊断、内存诊断。诊断项 说明 Pod诊断 涵盖了常见的Pod问题,例如Pod启动失败、Pod镜像拉取失败、Pod运行异常等,并在...

产品架构介绍

故障隔离:当局部Provider出现异常时,支持将异常的Provider进行故障隔离,保证所有机房内的Consumer均不会调用到异常的Provider,实现微服务流量的故障逃逸。单元化服务寻址:针对异地多活单元化架构,支持按照单元化规则寻址调用Provider...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

服务发布策略

如果新版本上线后出现严重的问题,那么只需将流量全部切回至旧版本,大大缩短故障恢复的时间。待新版本完成问题修复并重新部署之后,再将旧版本的流量切换到新版本。蓝绿部署通过使用额外的实例资源来解决服务发布期间的不可用问题,当服务...

产品优势

主要优势 多监控系统集成:支持10+常见监控系统集成,简单配置即可快速完成对接;灵活的报警降噪能力:支持横向抑制、纵向收敛,全面压制报警风暴,不再遗漏核心报警;大幅降低事务性操作:完善的事件分派、通知机制,避免重复事务性操作,...

灾备规划

云上容灾 为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,...

应用场景

简单易用:最终用户可以在任何本地设备上通过⽆影客户端访问各类专业设计应⽤,无需担心应⽤和系统的适配以及故障问题。性能强劲:提供了多个高性能的GPU实例规格,可以⽀撑不同类型的设计类应⽤运⾏负载。企业办公数据安全 场景痛点 企业...

常见问题-FAQ

重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL...

应用场景

简单易用:最终用户可以在任何本地设备上通过⽆影客户端访问各类专业设计应⽤,无需担心应⽤和系统的适配以及故障问题。性能强劲:提供了多个高性能的GPU实例规格,可以⽀撑不同类型的设计类应⽤运⾏负载。企业办公数据安全 场景痛点 企业...

从TR专线迁移至ECR专线访问云资源

步骤二:为物理专线2创建并开始故障演练任务 您需要为VBR2所在的物理专线2创建并开始故障演练任务,将物理专线2和VBR2通过模拟故障进行状态中断。具体操作,请参见 创建故障演练任务 和 开始故障演练任务。步骤三:删除VBR2与TR的关联转发 ...

同城多活常见问题

本文介绍同城多活的常见问题以及解决方案。假设数据库主备,ECS双可用区部署,是否就是同城多活?和EDAS、MSE集群流量同可用区优先的差异和优势?消息是基于Shutdown机制实现多活么?数据库是两个机房各一个主备,还是主机房一主一备,备...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
应用身份服务 (IDaaS) 数据库自治服务 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用