跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

故障演练

有损演练是指直接在线上真实业务环境注入异常进行演练,演练模拟的真实有效性高,为了平衡业务影响一般会选择最核心场景、在业务最低峰期做演练,而且演练频次相对较小,例如为了验证多活容灾能力的机房断网演练,一般是一个月一次的演练...

常见问题概览

服务器的流量未达到清洗阈值,为何安全总览中会出现清洗流量?DDoS高防服务是否支持接入采用NTLM协议认证的网站?DDoS高防热点问题 配置类 不同的阿里云账号如何共享使用DDoS高防 DDoS高防WebSocket配置 DDoS高防健康检查的主动探测IP 业务...

自动或手动主备切换

A:RDS在发生异常触发高可用切换时,应用端长连接可能无法感知到连接状态变化,如果没有设置socket超时时间,应用程序会一直等待数据库返回结果,通常会等到几百秒后才会断连,期间数据库的部分连接无法正常工作,SQL会出现大量执行异常。...

逻辑单元

CZone(City Zone):部署未按用户维度拆分的系统,被 RZone 高频访问,解决跨域通信延时问题。为了解决异地延迟问题而特别设计,适合读多写少且不可拆分的业务一般每个城市一套应用和数据,是 GZone 的快照。管理逻辑单元 在创建工作...

创建逻辑单元

CZone(City Zone):部署未按用户维度拆分的系统,被 RZone 高频访问,解决跨域通信延时问题。为了解决异地延迟问题而特别设计,适合读多写少且不可拆分的业务一般每个城市一套应用和数据,是 GZone 的快照。操作步骤 说明 在创建单元化...

PolarDB MySQL版CPU使用率高

此类问题一般可以通过开启集群的thread_pool特性进行流控缓解,具体请参见 Thread Pool。如果活跃线程有所缓解,同时还要注意应用侧是否已经产生了业务堆积,如果CPU负载较高同时活跃线程依然高居不下,此时则同样要考虑是不是对集群进行扩...

自动SQL限流

SQL限流是限制数据库上执行SQL的并发度,通过限制问题SQL的并发度后,保障数据库正常响应业务请求,保障大部分的业务正常运转,即通过小部分业务受损,保障大部分业务正常运行。背景信息 随着技术的发展,尤其是云数据库的普及,数据库系统...

异地应用双活切流

说明 单元(地域)间通信出现故障,将流量,主数据库全部切换到主单元(地域)。a.MSHA自动将备单元的流量切0,主数据在备单元的也自动选中,后续切换单主单元。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元前后比例的...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

配置消息监控告警实现风险预警

提前配置实例规格水位告警可以提前发现规格超限风险并及时升配,避免因限流导致的业务故障。业务逻辑错误监控预警 您在消息收发时可能收到异常报错,配置调用错误告警可以提前在业务反馈前发现异常,帮助您提前判断异常来源并及时修复。...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

出海加速

例如,在CDN和高防联动且回源到OSS的场景,由于CDN回源支持修改 回源HOST,而DDoS高防不支持,导致发生攻击自动切换到DDoS高防后,DDoS高防回源到OSS的正常流量无法被识别,出现业务故障。关于验证流量调度规则的操作,请参见 本地验证转发...

高可用系列

说明 当备节点出现故障不可用时,主节点进行实时备份,主节点备份临近完成时产生全局锁(FTWRL),导致主节点只读,一般不会超过5秒。功能全面 高可用系列实例提供完整的产品功能,包括弹性伸缩、备份恢复、性能优化、读写分离等,且...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

TCP连接超时时间配置

概述 用户的客户端调用API网关的引擎,API网关的引擎调用用户的后端服务,目前都使用的是TCP连接,关于TCP连接,一些超时时间的配置影响到整个通信过程,配置不合理导致不同情形的问题,甚至导致故障。本文档站在API网关的角度对API...

产品原理

当主地址池集合中,有一个应用服务地址出现故障时,HeathCheck模块准确的检测到异常情况,同时HeathCheck模块和DNS模块进行交互,最终是通过DNS模块将异常地址从向用户返回的应用服务地址列表中暂时删除;如果HeathCheck模块检测到应用...

CLB健康检查FAQ

如上所述,由于健康检查成功后,负载均衡服务器直接发送TCP RST包中断了连接,并没有做进一步的业务数据交互,导致上层业务(例如Java连接池等)认为相应的连接是异常的,所以会出现 Connection reset by peer 等错误信息。解决方案 更换...

云产品联动

例如,在CDN和高防联动且回源到OSS的场景,由于CDN回源支持修改 回源HOST,而DDoS高防不支持,导致发生攻击自动切换到DDoS高防后,DDoS高防回源到OSS的正常流量无法被识别,出现业务故障。关于验证流量调度规则的操作,请参见 本地验证转发...

读多写少型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾解决方案(AHAS-MSHA)帮助业务实现多活容灾...

异地双活切流

说明 单元(地域)间通信出现故障,将流量,主数据库全部切换到主单元(地域)。a.MSHA自动将备单元的流量切零。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元前后比例的对比,和 当前切流服务,如果和您预期不符,请返回 ...

云防火墙产品选型指导

如何设计安全域隔离业务 企业业务一般按业务维度划分为互联网业务、内部系统;按系统维度分区:生产、开发测试、共享区等。针对不同业务区可通过云防火墙实现安全域隔离和防护。互联网入安全设计 设计原则:保证灵活性、弹性伸缩能力和安全...

带宽扩展包

业务带宽超限有什么影响 如果接入WAF防护的网站的正常业务流量超出您已购买的WAF实例的业务带宽(即业务带宽超限),WAF降低超用业务的网络、计算等资源分配的优先级,触发限流、随机丢包等动作,导致您的业务在一定时间内出现卡顿、延迟...

业产技融合分层协作方案

第一个问题如果回答的不好,就会出现技术团队很忙,效率也很高,但是仍然无法满足公司的业务发展,或者无法让业务团队感到满意。第二个问题如果回答的不好,就会出现产品技术团队每天在不断的接需求、做需求,功能在不断增加和堆叠,但是...

什么是云拨测

实时告警与通知:云拨测提供实时告警功能,当业务出现异常时,主动发送告警通知,快速响应并处理问题。数据可视化:通过直观的数据展示和报表,您可以轻松了解网络状况、性能以及故障分析。应用场景 网络性能监控:云拨测可以帮助企业和...

常见报错

主日志报错:all shards failed 报错说明 出现该报错后,集群会出现以下问题:读取请求无法从分片获得响应。由于集群或节点仍处于初始启动过程,导致无法搜索数据。分片丢失或处于恢复模式,并且集群状态为red。报错原因 可能原因如下:...

割接与上线

割接上线前的准备 应用的割接上线是整个应用上云迁移实施的最关键环节,这一环节出问题,可能造成重大故障。针对割接上线的重要性,我们建议在实施应用割接前,制定详细的割接前检查清单,这个清单的严谨程度很大程度上决定了割接成功率...

测试指标

集群 对于使用集群方式的系统,主要通过以下方式考量其集群可靠性:集群中某个节点出现故障时,系统是否有业务中断情况出现。在集群中新增一个节点时,是否需要重启系统。当故障节点恢复后,加入集群,是否需要重启系统。当故障节点恢复后...

如何制定科学有效的需求流程规范

问题4:各个团队流程存在差异,跨团队协作比较困难 随着业务不断发展,业务线和产品线都有可能进行拆分,不同团队的需求流程也会逐渐形成差异化,如果一个需求需要两个以上的产品团队合作,就有可能会出现协作的问题。如果产品形态确实存在...

应用场景

主节点对外提供服务,当主节点出现故障,系统自动切换备用节点接管服务,整个切换过程对用户全部透明。电商行业应用 电商行业通过Redis实现商品秒杀、购物推荐等功能。场景一:秒杀类购物系统 大型促销秒杀系统,系统整体访问压力非常大,...

NVMe协议介绍

而计算节点则经常受断电、宕机、硬件故障等影响,所以业务通常搭建主备模式解决计算的高可用问题。例如数据库场景,当主库故障时迅速切换到备库对外提供服务,实例切换后,可以通过NVMe PR命令释放旧实例的写入权限,从而确保旧实例不再...

常见问题

专有网络FAQ 一般性FAQ 什么是CIDR?VPC与经典网络的区别是什么?VPC是否支持VPN功能?如何选择VPC的网段?如何选择交换机的网段?附加网段FAQ 同VPC下,主网段内的ECS实例与附加网段内的ECS实例是否可以互通?同VPC下,主网段内的ECS实例...

网站耗资源(客户程序故障)常见问题

什么会出现网站耗资源(客户程序故障)?常见的造成网站耗资源(客户程序故障)现象的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站数据库调用频繁,例如当ACCESS数据库的容量比较大时(超过100 MB以上),性能可能...

同城多活切流

选择 故障单元格,代表此时,该单元格当前出现故障,无法承接流量,MSHA自动将该单元格的流量置0,将另一个单元格置为100。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元格前后比例的对比,和 当前切流服务,如果和您预期...

SDK相关FAQ

什么会出现内存泄漏?setSDKAuthSDKInfo的密钥如何获取?什么情况下会返回600005页面非法修改?当使用移动卡请求一键登录不成功,可能出现的报错日志及解决方法有哪些?若出现权限相关问题,该怎样做?检查App的权限是否可以正常申请。...

业务流量隔离功能实践

若期望业务流量隔离环境与生产环境不共用一套中间件,为避免在业务隔离环境完整部署全链路应用(否则因为下游应用无可用机器而造成调用失败的问题),需要在中间件层面植入兜底调用回生产环境的逻辑。统一管控难 要实现HTTP、RPC、MQ、...

功能特性

跨数据库分布式事务 当业务规模增大,单库单表无法满足业务需求时,自然就会出现分库分表的情况。但是,单机事务又不能保证分库后的事务属性,分布式事务几乎无法避免。分布式事务可以让应用轻松具备跨库分布式事务处理能力,像使用单机...

灾备规划

云上容灾 为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,...

设备使用物模型通信

物联网平台提供物模型功能定义能力,设备可通过物模型通信Topic按照Alink JSON数据格式,实现与物联网平台交互通信。本文介绍设备与物联网平台之间,如何通过物模型实现多场景消息通信。背景信息 物联网平台提供的物模型功能定义和使用说明...

消息堆积和延迟问题

本文主要介绍 云消息队列 RocketMQ 版 TCP协议的Java客户端使用过程中,经常会出现的消息堆积和消息延迟的问题。通过了解 云消息队列 RocketMQ 版 客户端的消费原理和消息堆积的主要原因,帮助您可以在业务部署前更好的规划资源和配置,或...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 云服务器 ECS 物联网无线连接服务 边缘网络加速 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用