容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...
有损演练是指直接在线上真实业务环境注入异常进行演练,演练模拟的真实有效性高,为了平衡业务影响一般会选择最核心场景、在业务最低峰期做演练,而且演练频次相对较小,例如为了验证多活容灾能力的机房断网演练,一般是一个月一次的演练...
服务器的流量未达到清洗阈值,为何安全总览中会出现清洗流量?DDoS高防服务是否支持接入采用NTLM协议认证的网站?DDoS高防热点问题 配置类 不同的阿里云账号如何共享使用DDoS高防 DDoS高防WebSocket配置 DDoS高防健康检查的主动探测IP 业务...
A:RDS在发生异常触发高可用切换时,应用端长连接可能无法感知到连接状态变化,如果没有设置socket超时时间,应用程序会一直等待数据库返回结果,通常会等到几百秒后才会断连,期间数据库的部分连接无法正常工作,SQL会出现大量执行异常。...
CZone(City Zone):部署未按用户维度拆分的系统,被 RZone 高频访问,解决跨域通信延时问题。为了解决异地延迟问题而特别设计,适合读多写少且不可拆分的业务。一般每个城市一套应用和数据,是 GZone 的快照。管理逻辑单元 在创建工作...
CZone(City Zone):部署未按用户维度拆分的系统,被 RZone 高频访问,解决跨域通信延时问题。为了解决异地延迟问题而特别设计,适合读多写少且不可拆分的业务。一般每个城市一套应用和数据,是 GZone 的快照。操作步骤 说明 在创建单元化...
此类问题一般可以通过开启集群的thread_pool特性进行流控缓解,具体请参见 Thread Pool。如果活跃线程有所缓解,同时还要注意应用侧是否已经产生了业务堆积,如果CPU负载较高同时活跃线程依然高居不下,此时则同样要考虑是不是对集群进行扩...
SQL限流是限制数据库上执行SQL的并发度,通过限制问题SQL的并发度后,保障数据库正常响应业务请求,保障大部分的业务正常运转,即通过小部分业务受损,保障大部分业务正常运行。背景信息 随着技术的发展,尤其是云数据库的普及,数据库系统...
说明 单元(地域)间通信出现故障,将流量,主数据库全部切换到主单元(地域)。a.MSHA会自动将备单元的流量切0,主数据在备单元的也会自动选中,后续会切换单主单元。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元前后比例的...
本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...
提前配置实例规格水位告警可以提前发现规格超限风险并及时升配,避免因限流导致的业务故障。业务逻辑错误监控预警 您在消息收发时可能会收到异常报错,配置调用错误告警可以提前在业务反馈前发现异常,帮助您提前判断异常来源并及时修复。...
Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...
例如,在CDN和高防联动且回源到OSS的场景,由于CDN回源支持修改 回源HOST,而DDoS高防不支持,导致发生攻击自动切换到DDoS高防后,DDoS高防回源到OSS的正常流量无法被识别,出现业务故障。关于验证流量调度规则的操作,请参见 本地验证转发...
说明 当备节点出现故障不可用时,主节点会进行实时备份,主节点备份临近完成时会产生全局锁(FTWRL),导致主节点只读,一般不会超过5秒。功能全面 高可用系列实例提供完整的产品功能,包括弹性伸缩、备份恢复、性能优化、读写分离等,且...
故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...
概述 用户的客户端调用API网关的引擎,API网关的引擎调用用户的后端服务,目前都使用的是TCP连接,关于TCP连接,一些超时时间的配置会影响到整个通信过程,配置不合理会导致不同情形的问题,甚至导致故障。本文档站在API网关的角度对API...
当主地址池集合中,有一个应用服务地址出现故障时,HeathCheck模块会准确的检测到异常情况,同时HeathCheck模块会和DNS模块进行交互,最终是通过DNS模块将异常地址从向用户返回的应用服务地址列表中暂时删除;如果HeathCheck模块检测到应用...
如上所述,由于健康检查成功后,负载均衡服务器直接发送TCP RST包中断了连接,并没有做进一步的业务数据交互,导致上层业务(例如Java连接池等)认为相应的连接是异常的,所以会出现 Connection reset by peer 等错误信息。解决方案 更换...
例如,在CDN和高防联动且回源到OSS的场景,由于CDN回源支持修改 回源HOST,而DDoS高防不支持,导致发生攻击自动切换到DDoS高防后,DDoS高防回源到OSS的正常流量无法被识别,出现业务故障。关于验证流量调度规则的操作,请参见 本地验证转发...
多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾解决方案(AHAS-MSHA)帮助业务实现多活容灾...
说明 单元(地域)间通信出现故障,将流量,主数据库全部切换到主单元(地域)。a.MSHA会自动将备单元的流量切零。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元前后比例的对比,和 当前切流服务,如果和您预期不符,请返回 ...
如何设计安全域隔离业务 企业业务一般按业务维度划分为互联网业务、内部系统;按系统维度分区:生产、开发测试、共享区等。针对不同业务区可通过云防火墙实现安全域隔离和防护。互联网入安全设计 设计原则:保证灵活性、弹性伸缩能力和安全...
业务带宽超限有什么影响 如果接入WAF防护的网站的正常业务流量超出您已购买的WAF实例的业务带宽(即业务带宽超限),WAF会降低超用业务的网络、计算等资源分配的优先级,触发限流、随机丢包等动作,导致您的业务在一定时间内出现卡顿、延迟...
第一个问题如果回答的不好,就会出现技术团队很忙,效率也很高,但是仍然无法满足公司的业务发展,或者无法让业务团队感到满意。第二个问题如果回答的不好,就会出现产品技术团队每天在不断的接需求、做需求,功能在不断增加和堆叠,但是...
实时告警与通知:云拨测提供实时告警功能,当业务出现异常时,会主动发送告警通知,快速响应并处理问题。数据可视化:通过直观的数据展示和报表,您可以轻松了解网络状况、性能以及故障分析。应用场景 网络性能监控:云拨测可以帮助企业和...
主日志报错:all shards failed 报错说明 出现该报错后,集群会出现以下问题:读取请求无法从分片获得响应。由于集群或节点仍处于初始启动过程,导致无法搜索数据。分片丢失或处于恢复模式,并且集群状态为red。报错原因 可能原因如下:...
割接上线前的准备 应用的割接上线是整个应用上云迁移实施的最关键环节,这一环节出问题,可能会造成重大故障。针对割接上线的重要性,我们建议在实施应用割接前,制定详细的割接前检查清单,这个清单的严谨程度很大程度上决定了割接成功率...
集群 对于使用集群方式的系统,主要通过以下方式考量其集群可靠性:集群中某个节点出现故障时,系统是否有业务中断情况出现。在集群中新增一个节点时,是否需要重启系统。当故障节点恢复后,加入集群,是否需要重启系统。当故障节点恢复后...
问题4:各个团队流程存在差异,跨团队协作比较困难 随着业务不断发展,业务线和产品线都有可能进行拆分,不同团队的需求流程也会逐渐形成差异化,如果一个需求需要两个以上的产品团队合作,就有可能会出现协作的问题。如果产品形态确实存在...
主节点对外提供服务,当主节点出现故障,系统自动切换备用节点接管服务,整个切换过程对用户全部透明。电商行业应用 电商行业通过Redis实现商品秒杀、购物推荐等功能。场景一:秒杀类购物系统 大型促销秒杀系统,系统整体访问压力非常大,...
而计算节点则经常受断电、宕机、硬件故障等影响,所以业务通常搭建主备模式解决计算的高可用问题。例如数据库场景,当主库故障时迅速切换到备库对外提供服务,实例切换后,可以通过NVMe PR命令释放旧实例的写入权限,从而确保旧实例不再...
专有网络FAQ 一般性FAQ 什么是CIDR?VPC与经典网络的区别是什么?VPC是否支持VPN功能?如何选择VPC的网段?如何选择交换机的网段?附加网段FAQ 同VPC下,主网段内的ECS实例与附加网段内的ECS实例是否可以互通?同VPC下,主网段内的ECS实例...
为什么会出现网站耗资源(客户程序故障)?常见的造成网站耗资源(客户程序故障)现象的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站数据库调用频繁,例如当ACCESS数据库的容量比较大时(超过100 MB以上),性能可能...
选择 故障单元格,代表此时,该单元格当前出现故障,无法承接流量,MSHA会自动将该单元格的流量置0,将另一个单元格置为100。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元格前后比例的对比,和 当前切流服务,如果和您预期...
为什么会出现内存泄漏?setSDKAuthSDKInfo的密钥如何获取?什么情况下会返回600005页面非法修改?当使用移动卡请求一键登录不成功,可能出现的报错日志及解决方法有哪些?若出现权限相关问题,该怎样做?检查App的权限是否可以正常申请。...
若期望业务流量隔离环境与生产环境不共用一套中间件,为避免在业务隔离环境完整部署全链路应用(否则会因为下游应用无可用机器而造成调用失败的问题),需要在中间件层面植入兜底调用回生产环境的逻辑。统一管控难 要实现HTTP、RPC、MQ、...
跨数据库分布式事务 当业务规模增大,单库单表无法满足业务需求时,自然就会出现分库分表的情况。但是,单机事务又不能保证分库后的事务属性,分布式事务几乎无法避免。分布式事务可以让应用轻松具备跨库分布式事务处理能力,像使用单机...
云上容灾 为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,...
物联网平台提供物模型功能定义能力,设备可通过物模型通信Topic按照Alink JSON数据格式,实现与物联网平台交互通信。本文介绍设备与物联网平台之间,如何通过物模型实现多场景消息通信。背景信息 物联网平台提供的物模型功能定义和使用说明...
本文主要介绍 云消息队列 RocketMQ 版 TCP协议的Java客户端使用过程中,经常会出现的消息堆积和消息延迟的问题。通过了解 云消息队列 RocketMQ 版 客户端的消费原理和消息堆积的主要原因,帮助您可以在业务部署前更好的规划资源和配置,或...