如何通过 mPaaS 框架解决 App 线上问题

如果真的在线上发生故障,开发者就可以通过服务器推送开关,及时将故障代码关闭。这种推拉结合的方式,即时到达率 100%。发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。...

教程概览

6、容灾预案:容灾预案可以帮助用户实现容灾演练,或发生故障时快速切换访问流量,包括创建容灾预案、执行/回滚等相关信息。7、日志信息:介绍全局流量管理运行状态的告警日志,包括:健康检查告警、健康检查恢复、地址池不可用、地址池...

WAN+4G链路备份

当主用链路发生故障时,自动切换至备用链路。您可以在智能接入网关管理控制台查看当前智能接入网关设备接入Internet的链路状态。前提条件 您已经从运营商处购买了一个可传输数据流量的4G卡并插入到了智能接入网关设备上。背景信息 智能接入...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

通过CADT实现NLB可用区级容灾演练

NLB实例的 可用区J 发生故障时,NLB能够在短时间内停用该可用区,并继续使用其他启用的可用区提供服务。步骤四:容灾切回演练 容灾切回功能:NLB可用区故障恢复后,验证NLB的容灾恢复能力。容灾切回概念:与容灾切换相反,将资源切回到执行...

发现并处理大Key和热Key

通过此类监控手段,可以提前规避许多问题,例如LIST数据类型的消费程序故障造成对应Key的列表数量持续增长,将告警转变为预警从而避免故障发生,更信息,请参见 报警设置。对过期数据进行定期清理 堆积大量过期数据会造成大Key的产生,...

通过CADT实现ALB可用区级容灾演练

ALB实例的乌兰察布 可用区A 发生故障时,ALB能够在短时间内停用该可用区,并继续使用其他启用的可用区提供服务。步骤四:容灾切回演练 容灾切回功能:ALB可用区故障恢复后,验证ALB的容灾恢复能力。容灾切回概念:与容灾切换相反,将资源切...

发现并处理Redis的大Key和热Key

通过此类监控手段,可以提前规避许多问题,例如LIST数据类型的消费程序故障造成对应Key的列表数量持续增长,将告警转变为预警从而避免故障发生,更信息,请参见 报警设置。对过期数据进行定期清理 堆积大量过期数据会造成大Key的产生,...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...

云盘异步复制概述

启动云盘异步复制功能 通过异步复制功能实现容灾恢复 您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复 删除云盘异步复制关系 创建...

服务发布策略

当新版本v2存在问题或者发生故障时,可以快速切回旧版本v1。蓝绿部署的优点:部署结构简单,运维方便。服务升级过程操作简单,周期短。蓝绿部署的缺点:资源冗余,需要部署两套生产环境。新版本故障影响范围大。A/B测试 A/B测试基于用户...

容灾管理服务介绍

针对有高可用需求的用户,CADT容灾管理服务提供规划、优化、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者AZ故障,保障系统健壮性。主要功能 容灾规划 在用户部署资源前,通过...

功能特性

专线+Internet备份:智能接入网关支持Internet链路和专线互为备份链路,当主用链路发生故障时,自动切换至备用链路接入阿里云。说明 目前仅 SAG-1000支持专线功能,SAG-100WM不支持专线功能。更信息,请参见 什么是高速通道。路由方式 ...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

同城活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

功能更新记录

本文介绍故障演练Chaos历次发布涉及的功能变更,帮助您了解故障演练的发布动态。2021年10月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 微服务强弱依赖支持Dubbo 在应用强弱依赖治理的基础上,微服务强弱依赖治理功能,通过接入...

变更管理简介

有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,提高变更成功率与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...

高压缩引擎(X-Engine)介绍

高压缩引擎(X-Engine)节点架构可用于保障集群的高可用,当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover),保证了服务可用性不低于99.99%。高压缩引擎(X-Engine)节点架构图如下:产品优势 超大存储...

流水单据型业务场景活实践

在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复。说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦。容灾切换...

实例的节点故障处理机制

副本集架构 副本集实例提供个节点供用户访问,当其中的某个节点发生故障后,系统会使用Secondary节点或隐藏节点替换故障节点继续提供服务,并对故障节点进行检查与修复。该过程对用户完全透明,可能会产生1次30秒内的连接闪断,建议您在...

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

应用场景

当其中一部分ECS实例发生故障后,CLB 会自动屏蔽故障的ECS实例,将请求分发给正常运行的ECS实例,保证应用系统仍能正常工作。同城容灾(多可用区容灾)为了提供更加稳定可靠的 CLB 服务,CLB 已在各地域部署了多可用区以实现同地域容灾。当...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

FAQs

答:经过测试团队对GTM次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...

常见问题-FAQ

答:经过测试团队对GTM次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...

测试指标

例如系统吞吐能力很强,加上短连接一般都有连接复用,往往并发用户数大于系统的并发接入连接数。所以对于大部分短连接类型的系统,吞吐量模式(RPS模式,Request Per Second)比较适合,也是阿里的最佳实践,PTS支持RPS模式的压测,吞吐量...

作业调试

如果单个TaskManager资源过大,则TaskManager上运行的作业数会很,一旦TaskManager发生单点故障,影响面会很大。日志配置 根日志等级 日志级别从低到高的顺序如下:TRACE:比DEBUG更细粒度的信息。DEBUG:系统运行状态的信息。INFO:重要...

产品简介

当前事件:当发生涉及区域性或产品的故障时,阿里云健康看板会在页面头部重点显示事件信息。事件详情:每个事件都会尽可能详细的描述(受影响产品、受影响地域,事件进展、问题报告等),以帮助客户理解其对自身应用程序和服务的影响程度...

错误处理

5s DefaultRetryInterval 指数退避重试策略的抖动值,以避免故障客户端在同一时间点发起重试请求。10 ms MaxRetryInterval 两次重试之间的最大时间间隔。320 ms Transport 管理HTTP客户端的底层传输属性,默认为nil。如果设置了该参数...

存储资源

连接复用:尽量使用连接复用的方式,即一个请求完成后,将连接释放回连接池,供其他请求复用。限流:可能因上游服务调用导致当前服务数据库访问频次增大,导致数据库连接数增加,超出当前服务处理的最大请求,需要当前服务具有限流能力,...

X-Engine简介

这种结构对于写入是非常友好的,只要追加到最新的内存表中即完成,为实现故障恢复,只需记录Redo Log,因为新数据不会覆盖旧版本,追加记录会形成天然的版本结构。但是如此累积,冻结的持久化层次越来越,会对查询产生不利的影响。例如...

Service的负载均衡配置注意事项

后端服务器组 当Service对应的后端Endpoint或者集群节点发生变化时,CCM会自动更新SLB的后端虚拟服务器组,在ACS集群中,CCM仅支持挂载PodIP。注意事项 哪些SLB可以被复用?仅支持复用通过SLB控制台创建的SLB,不支持复用CCM自动创建的SLB...

2024年

当地域级别故障发生时,可以进行地域切换,在备份集群地域基于已备份数据恢复生产。功能详细说明及使用请参见 跨地域灾备。目前跨地域灾备处于邀测阶段,如您需要使用此功能,请单击 申请开通,在新功能试用申请页面申请开通使用跨地域灾备...

附录:SOFAStack 产品目录

传统实现方式是在系统代码里指定任务的执行顺序,当业务发生变化时需要修改代码才可以正常工作,可维护性很差。使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了可维护性,并可以直观地看到任务的...

泛化协议设备接入相关问题

但您又希望复用物联网平台的功能,将设备纳入基于物联网平台的解决方案,此时,您可以使用泛化协议SDK。关于泛化协议的更信息,请参见 什么是泛化协议SDK。具体操作,请参见 基础用法。如何与物联网平台建立连接?在应用程序初始化时,...

Service的负载均衡配置注意事项

后端服务器组 当Service对应的后端Endpoint或者集群节点发生变化时,CCM会自动更新SLB的后端虚拟服务器组。对于Terway网络插件,CCM默认挂载PodIP,而非挂载ECS节点到SLB后端。根据Service模式的不同,后端服务器组的更新策略也有所不同。...

Service的负载均衡配置注意事项

后端服务器组 当Service对应的后端Endpoint或者集群节点发生变化时,CCM会自动更新SLB的后端虚拟服务器组。对于Terway网络插件,CCM默认挂载PodIP,而非挂载ECS节点到SLB后端。对于Flannel网络插件,根据Service模式的不同,后端服务器组的...

使用须知及高危风险操作说明

阿里云容器计算服务(简称ACS)提供容器计算服务相关的技术架构以及核心组件的托管服务,对于非托管组件以及运行在ACS集群中的应用,不当操作可能会导致业务故障。为了更好地预估和避免相关的操作风险,在使用容器计算服务ACS前,请认真...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 共享带宽 负载均衡 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用