常见问题-FAQ

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

为Pod配置QoS

在线业务对网络质量敏感、对网络延迟指标要求高,而离线业务对网络带宽占用大,如果两种业务在一起运行而不做任何控制,突发的流量很可能影响在线业务,从而影响整体网络质量。通过对Pod进行细粒度的QoS配置,可以显著改善这种情况。本文...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

QoS策略

通过QoS策略配置队列优先级以及流分类规则,来控制带宽占用,防止过度占用导致其他流量受阻,从而保证实时流量稳定传输。流媒体服务 用户在使用在线流媒体服务时,希望视频或音乐可以连续播放,而且不会因为网络问题出现缓冲或中断。您可以...

如何查看Linux系统网络流量负载情况?

Nethogs工具的使用 Nethogs是一款开源的网络流量监控工具,可用于显示每个进程的带宽占用情况。这样可以更直观定位异常流量的来源。Nethogs支持IPv4和IPv6协议,支持本地网卡及PPP连接。Nethogs工具的安装方法请参阅其官方帮助文档,本文...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

产品优势

安全可靠 DTS底层为服务集群,如果集群内任何一个节点宕机或发生故障,控制中心都能够将这个节点上的所有任务快速切换到其他节点上,链路稳定性高。DTS内部对部分传输链路提供7×24小时的数据准确性校验,快速发现并纠正传输数据,保障传输...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

本地盘最佳实践

如果本地盘发生故障、物理服务器发生宕机,或者人为误操作,本地盘会丢失数据。请勿在本地盘上存储需要长期保存的业务数据。但云盘采用分布式三副本机制,能防止意外硬件故障导致的数据不可用。如果应用没有多节点数据冗余架构,强烈建议您...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

网络资源

可以采用流量控制策略,限制每个连接或用户的带宽使用,防止某个连接或用户占用过多的带宽资源。增加带宽容量:当网络带宽不足无法满足需求时,可以考虑增加带宽的容量。可以与网络服务提供商协商增加带宽的容量,以满足系统的需求。网络...

EMR Kafka磁盘故障运维

当磁盘发生故障时,应及时完成相关故障的处理,及时恢复集群的容错能力。磁盘运维概述 本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控 以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

每个探针会占用多大的网络带宽

探针占用带宽和业务吞吐量以及采样策略有密切的关系,存在比较大的浮动,您可以按照每1000个探针占用5 M的带宽来进行网络规划。

发现并处理Redis的大Key和热Key

在使用Redis的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能引发的问题及如何快速...

概览

在以上业务场景下,智能阈值针对各主要云产品的核心监控指标,可以有效地在指标异常发生3分钟内召回85%以上问题及故障。降低阈值配置维护成本 智能阈值无需输入具体数值,只需要创建一条智能阈值报警规则,选择对应的报警条件(边界以外、...

什么是公网NAT网关

为了应对业务流量可能发生的变化,在购买公网带宽时需要考虑一定的冗余。当同时存在多个需要面向公网提供服务的应用时,为每个应用购买冗余带宽会造成资源和成本的浪费。您可以创建公网NAT网关,并为公网NAT网关绑定EIP,然后将绑定到公网...

DAS Auto Scaling弹性能力

针对需要扩容实例带宽规格的数据库实例,DAS网络带宽自动变配服务可对实例带宽进行调整,扩缩到合适的网络带宽规格来解决实例带宽吞吐量的问题。在用户交互层面,DAS Auto Scaling主要采用消息通知的方式展示具体的进度以及任务状态,其中...

诊断项与诊断结果说明

如果突发网络带宽已超过实例规格对应的网络突发带宽上限,会导致网络性能成为业务瓶颈,请您将实例升级至网络带宽能力更高的实例规格。具体操作,请参见 修改实例规格。说明 不同实例规格的网络突发带宽能力,请参见 实例规格族。网络流量...

如何处理云服务器ECS内网流量增高问题?

nethogs eth0 Windows 说明 Windows Server 2008及以上的操作系统,您可以通过资源监视器查看占用内网带宽的进程。在云服务器ECS的任务栏上,单击鼠标右键,选择 任务管理器。在 任务管理器 的 进程 页签,查看占用内网带宽的进程。如果...

指标说明

该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。go_memstats_gc_sys_bytes 显示垃圾收集元数据占用内存大小。go_memstats_gc_cpu_fraction 显示自程序启动以来,GC所占用CPU时间的比例...

指标说明

该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。go_memstats_gc_sys_bytes 显示垃圾收集元数据占用内存大小。go_memstats_gc_cpu_fraction 显示自程序启动以来,GC所占用CPU时间的比例...

点播CDN常见问题

TCP重传由于互联网中网络情况较为复杂,在出现网络拥堵、设备故障等情况下就会出现丢包,通常有3%~10%的数据会被互联网丢弃,数据包被丢弃后的重传动作是由操作系统内核层的协议栈处理的,无法记录到应用层日志中,因此这部分也会产生额外...

远程桌面无法连接到Windows实例的快速排查方法

Trying 192.168.0.1.Connected to 192.168.0.1 4389.Escape character is '^]' 检查Windows远程端口设置是否超出范围,如果超出范围,您需将端口重新修改为0到65535之间,且没有被占用的其它端口,具体操作请参见以下操作。登录实例,依次...

监控VPN网关实例

vpn网关流入带宽使用率 VPN网关实例接收流量时占用带宽百分比。vpn网关流出带宽使用率 VPN网关实例发送流量时占用带宽百分比。为VPN网关实例创建阈值报警规则 推荐您为VPN网关实例创建阈值报警规则,在VPN网关实例的监控指标超过指定...

CreateSmartAccessGateway-智能接入网关实例

当主设备发生故障时,需手动切换至备设备。warm_backup:购买两台智能接入网关设备共享带宽,两台设备同时在线。当主设备故障时自动切换到备设备。说明 在您创建智能接入网关 vCPE 实例时,本参数仅取值 warm_backup。no_backup ChargeType...

使用限制

对于2020年02月15日00:00:00(北京时间)之后新购、变配或续费的 EIP,增加以下出入方向带宽限速规则:入方向带宽(流量进入 EIP 方向占用带宽)您的 EIP 带宽峰值大于等于10 Mbps时,阿里云会分配与带宽峰值相等的入方向带宽。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享带宽 NAT网关 负载均衡 全球加速 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用