什么是故障演练

验证容器编排配置是否合理 通过模拟杀服务Pod、杀节点、增大Pod资源负载,观察系统服务可用性,验证副本配置、资源限制配置以及Pod下部署的容器是否合理。测试PaaS层是否健壮 通过模拟上层资源负载,验证调度系统的有效性;模拟依赖的分布...

产品架构

本文介绍故障演练的产品架构,以下简称故障演练为AHAS Chaos。产品架构图 AHAS Agent AHAS Agent安装在指定的目标机器上,用来执行服务端下发的故障注入命令以及采集演练相关的必要...在服务不可用情况下,您可以通过手动执行命令恢复演练。

Warm Up(冷启动)

对于长期处于低水位状态的系统,可以使用Warm Up(冷启动)功能来避免流量骤增导致水位瞬间升高系统不可用的情况。功能原理 Warm Up,即冷启动/预热的方式。当系统长期处于低水位的情况下,若流量突然增加,可能会把系统水位瞬间拉高把系统...

基本概念

单副本版:每个节点只有1个副本,该副本服务不可用时,会导致整个集群不可用,需要等待此副本完全恢复服务状态,集群才能继续提供稳定服务。说明 双副本版的资源以及对应的购买成本都是单副本版的2倍。由于底层云盘提供高可靠保证,即便是...

使用网格拓扑观测同可用区优先路由

显示示例如下:步骤三:通过网格拓扑验证路由自动切换 将部署在第一个可用区的reviews-v1的Pod缩容为0,模拟服务不可用的状态。登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,...

企业单AZ架构升级到多AZ

手动部署 https://solution/tech-solution/multi_az 方案概览 即使是在云中,服务、硬件或数据中心出现临时故障和负载...验证高可用 30 方案验证 完成了多服务器配置后,您可以停止任一服务器,来验证在部分服务器不可用时,服务的可用性。

使用网格拓扑观测同可用区优先路由

显示示例如下:步骤三:通过网格拓扑验证路由自动切换 将部署在第一个可用区的reviews-v1的Pod缩容为0,模拟服务不可用的状态。登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,...

限流降级简介

例如,在前端网站面对大流量访问时,可以对流量进行控制,防止大流量对后端核心系统造成破坏并导致服务不可用的情况。总体而言,限流是指通过调节流量阈值控制通过系统的最大流量值,保证系统安全可靠运行。在服务提供者端配置限流模块代码...

错误码和状态码说明

503 服务不可用 目前无法使用服务器。可能原因是服务器超载或停机维护。通常,这只是一种暂时的状态。504 网关超时 服务器作为网关或代理。ECS探测点或运营商探测点未及时从目标站点接收请求。505 不支持HTTP版本 服务器不支持请求中所使用...

通过ARMS告警大盘提高告警处理效率

服务可用率(SLA)服务可用率计算公式:可用率=系统可用时长​/(系统可用时长+系统不可用时长)单个告警无法计算服务可用率,只有将同一类告警前后多次发生的持续时间进行累计计算后才能针对这类告警计算服务可用率指标。ARMS告警管理使用...

增强ASM网关高可用

ASM网关作为业务的流量入口,为了避免服务不可用,增强ASM网关的高可用性非常重要。本文介绍如何增强ASM网关的高可用性。前提条件 已创建ASM实例。具体操作,请参见 创建ASM实例。已创建ACK或 ACK Serverless集群。具体操作,请参见 创建...

经典网络实例部分迁移到VPC最佳实践

不同云产品迁移后可能需要修改配置参数,会出现一定时间内服务不可用的情况,请提前做好迁移规划。步骤一:迁移ECS实例 通过实例迁移计划,将应用服务器(ECS_B)迁移到VPC网络,具体操作如下所示。登录 ECS管理控制台。在左侧导航栏,选择...

GetDID

达到限流值 500 GwError.RegionProxyError The region proxy server API is unavailable.api服务不可用 500 GwError.RegionProxyError The region proxy server connection is denied.区域代理链接拒绝 500 GwError.RegionProxyError The ...

监控、诊断和故障排除

这样不仅可以有效避免因为优化或者升级等系统操作(如为了系统负载均衡进行分区迁移等)暂时导致的服务不可用问题,还可以避开业务峰值的压力。永久性的增加 如果服务端错误持续在一个较高的水平,那么请提供客户端日志或者日志功能记录的...

RPC 常见问题

使用 RPC 客户端调用服务时报错 调用服务时报“RPC-02306:没有获得服务[{0}]的调用地址,请检查服务是否已经推送”错误 排查思路如下:检查服务地址是否推送。登录客户端,查看/home/admin/logs/rpc/sofa-registry.log 日志,您可以通过...

应用场景

当主可用区出现机房故障或不可用时,CLB 仍然有能力在非常短的时间内(大约30s中断)切换到另外一个备可用区恢复服务能力;当主可用区恢复时,CLB 同样会自动切换到主可用区提供服务。使用 CLB 时,您可以将 CLB 实例部署在支持多可用区的...

TraceId 和 SpanId 生成规则

如果 C 系统在处理请求的时候又调用了 E,F 两个系统,那么 C 系统中对应的 SOFATracer RPC 客户端日志是 0.2.1 和 0.2.2,E、F 两个系统对应的 SOFATracer RPC 服务端日志也是 0.2.1 和 0.2.2。根据上面的描述可以知道,如果把一次调用中...

容灾演练断网方式说明

使用场景 机房级业务整体不可用。机房级云服务不可用。机房级云基础设施不可用。使用限制 可用区断网基于VPC网络ACL的高级特性。若VPC不支持高级特性,则无法使用可用区断网方式。更多信息,请参见 VPC高级功能。如果您可用区内的ECS实例...

DeleteRpcService

请求参数 名称 类型 是否必选 示例值 描述 Action String 是 DeleteRpcService 系统规定参数。取值:DeleteRpcService。Id String 是 1 服务接口注册记录ID。ProjectId String 是 sghghshr iovcc项目工程ID。RegionId String 否 ...

弱依赖降级

若依赖方出现不稳定的情况,则请求和调用依赖方的方法的响应时间变长,线程产生堆积,最终可能耗尽自身的线程数,导致应用本身不可用。在复杂链路中,若某一环不稳定,就可能会层层渲染,最终导致整个链路都不可用。针对以上情况,可以使用...

强弱依赖治理概述

随着分布式微服务的发展,系统正在变得越来越复杂,一个普通的应用也可能依赖了很多其他的服务。在没有明确强弱依赖关系的前提下,系统很难进行限流降级、优化改造等操作。强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、...

同城容灾演练产品概述

当企业的业务迁移部署在阿里云上,可使用阿里云的云解析DNS(Alibaba Cloud DNS)、负载均衡SLB(Server Load Balancer)、关系型数据库RDS(Relational Database Service)等产品,搭建同地域多可用区容灾系统架构,实现同城容灾。...

如何使用消息服务

3.RPC调用 用户在应用服务端提供的服务接口发布好后,只需在控制台上进行服务注册,即可完成客户端通过RPC(即远程服务调用)对服务端接口的调用。RPC服务注册页面导航:CMNS-服务注册 进入服务注册页面,点击服务注册按钮,在对话框中录入...

ListRpcServices

请求参数 名称 类型 是否必选 示例值 描述 Action String 是 ListRpcServices 系统规定参数。取值:ListRpcServices。ProjectId String 是 sfgsghd6 iovcc项目工程ID PageIndex Integer 否 1 分页查询页码 PageSize Integer 否 20 分页查询...

存储冗余

存储冗余类型 服务可用性 价格 本地冗余存储 99.9%存储空间-日志存储 0.0115元/GB/天 存储空间-日志低频存储 0.005元/GB/天 存储空间-日志归档存储 0.0017元/GB/天 同城冗余存储 99.99%存储空间-日志存储 0.0115元/GB/天 存储空间-日志低频...

什么是 SOFAStack 微服务

服务治理 提供对业务系统的限流、熔断、降级服务,从而保证业务系统不会被大量突发请求击垮,提高系统稳定性。应用依赖 应用通过 RPC 发布、订阅服务时,应用依赖可以提供实时分析结果,可展示不同应用之间的服务调用关系,以及应用发布和...

存储冗余概述

存储冗余类型 Bucket地域属性 存储类型 数据持久性 服务可用性 本地冗余存储 有地域属性Bucket 标准存储 99.999999999%(11个9)99.99%低频访问存储 99.00%归档存储 99.00%冷归档存储 99.00%深度冷归档存储 99.00%无地域属性Bucket 标准...

引用 SOFARPC 服务

引入接口定义依赖 要引用一个 RPC 服务,您需要知道 RPC 服务的提供方所发布的接口是什么(如果发布的服务有 unique-id,您还需要知道 unique-id),这就要求服务提供方将发布的接口所在的 JAR 包及依赖信息传到 Maven 仓库,以便服务引用...

集群异常状态

ACK会定时检测集群运行状态,如果集群符合特定的异常条件,集群状态将自动变更为“不活跃(inactive)”或“不可用(unavailable)”。集群变更为“不活跃”或“不可用”状态时,ACK将会通过短信、邮件、站内信的方式向您发送相关通知。...

手动更换可用

例如当需要将备可用区更换为目标主可用区时,平均耗时为5分钟/节点,若集群中有4个节点,是否意味着业务会有约20分钟的不可用时间?A:更换主可用区所需的时间不等于业务不可用时间。整个切换过程中,仅在主备切换时会出现1~2次约30秒的闪...

功能概述

假如地址池内,健康IP地址的数量小于您设置的最小可用地址数量,系统则会自动将地址池设置为不可用,同时访问策略会根据会地址池的可用性状态自动选择是否切换至备用地址池。3.地址工作模式 在地址池内,用户是可以为不同的IP设置不同的...

同城冗余

通过创建使用同城冗余的实例存储数据,即使当由于断网、断电或者灾难事件导致某个机房不可用时,表格存储 仍能继续提供强一致性的服务。同城冗余功能确保了数据的高可用性和容灾能力。冗余类型 表格存储 提供了本地冗余和同城冗余两种冗余...

AddZoneToVpcEndpoint-为终端节点添加可用

指定的IP不可用 400 EndpointProtected The specified Endpoint is protected.终端节点已经设置操作保护 400 VSwitchStatusNotAllowed The specified vswitch status is not Available.交换机状态还未可用 400 VpcNatServiceException The ...

CLB支持的地域信息

例如可用区A的 传统型负载均衡CLB 不可用时,ECS并不一定不可用,因此如果仅因为 传统型负载均衡CLB 集群故障导致的 传统型负载均衡CLB 主备倒换,备可用区的 传统型负载均衡CLB 依然可以将流量分发至不同可用区的ECS。但当整个可用区的...

多可用区部署

最终一致模式下,由于表的主备Partition都可以读写,当可用区A不可用、表读写出现毛刺和机器终止工作等故障时,超过一定的时间不会返回访问结果,无需等待和系统切换主可用区的过程,Lindorm会自动选择可用区B发送请求,达到高可用和降低...

部署和使用跨可用区实例

索引副本 对于跨两个可用区的实例,当其中一个可用区为不可用时,剩下的可用区需要继续提供服务,因此索引的副本个数至少为1。实例默认的副本分片数为1个,如果您对读性能没有特殊要求,可以直接使用默认值。对于跨三个可用区的实例,当...

服务关联角色

在自动创建服务关联角色失败或轻量应用服务器不支持自动创建时,您需要手动创建服务关联角色。阿里云访问控制为每个服务关联角色提供了一个系统权限策略,该策略不支持修改。如果您想了解该系统策略的具体内容,可前往指定服务关联角色的...

搭建高可用架构

设置自动备份 为减少误操作或数据库异常时的不可用时间,建议您设置实例每隔一段时间 自动备份,以便出现问题时及时恢复到最近的数据。跨地域容灾 RDS MySQL提供跨地域容灾功能,保障您的数据安全,有效提高实例可用性。创建异地灾备实例:...

ECS实例使用的Windows系统激活失败如何解决?

0xC004F074 软件授权服务报告无法激活计算机,密钥管理服务(KMS)不可用系统显示类似如下。问题原因 出现这个报错一般都是由于服务器到KMS之间的网络存在问题,导致服务器无法跟KMS进行通讯。网络存在问题可能是由于Windows系统的ECS...

业务连续性

数据的备份和恢复 故障时流量转移可以很好地避免地域级别故障造成业务中断,但此时故障地域的数据服务也可能同样不可用。为了让业务在备地域的应用启用期间也能正常运转,您需要根据自身的业务设计合适的方案,在非故障期间将数据从主地域...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS 负载均衡 应用高可用服务 轻量应用服务器 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用