但并不建议将全部ECS实例都部署在同一可用区内,建议在CLB的备可用区同时部署少量ECS实例,以保障在极端情况下(主可用区整体不可用时),切换到备可用区后仍旧可以正常处理负载均衡转发的请求。多CLB实例的高可用 如果业务对可用性的要求...
层级 主要功能 4层 流量管理:TCP路由 安全:面向4层的简单授权策略、双向TLS 可观测:TCP监控指标及日志 7层 流量管理:HTTP路由、负载均衡、熔断、限流、故障容错、重试、超时等 安全:面向7层的精细化授权策略 可观测:HTTP监控指标、...
概述 当网站访问很慢或无法访问时,若已经排除显著的问题,而使用ping命令检测到有明显丢包时,建议您做链路测试。Linux环境下,推荐优先使用mtr命令行工具测试,或使用traceroute命令行工具进行链路测试来判断问题来源。通常情况下,链路...
健康检查 针对地址池,可以配置健康检查,开启健康检查是指对地址池中的IP地址配置健康检查,开启后可实现实时监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查支持的方式:ping、tcp、http(s)。...
您在使用短信服务API或SDK时,如果遇到疑问后可以参考以下常见问题及处理建议。AccessKey是否支持调用短信API?AccessKey 是阿里云账号维度,并不固定用于阿里云哪个产品。如果您是RAM子账号的AccessKey,为对应的RAM子账号授权了哪些产品...
概述 本文主要介绍使用阿里云ECS实例搭建IIS网站时,遇到的一些常见问题的处理方法。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS...
问题描述 当您使用阿里云CDN加速站点访问资源后,客户端的请求将首先发送到CDN的L1节点(一级节点),再回源到L2节点(二级节点),然后再回源到源站。因此如果访问过程中出现问题,可能涉及到多级网络链路的问题。当CDN回源源站异常失败时...
一般情况下,如果这个数值除以逻辑CPU的数量大于5(具体数值需要根据实际服务器CPU处理能力以及系统使用情况而定),则表示系统在超负荷运转。此时,您可以根据进程列表中查看%CPU 较高的PID,定位异常进程即 COMMAND 参数值,然后根据您的...
通过CNAME接入方式将域名添加到 Web应用防火墙(Web Application Firewall,简称WAF)后,您需要将域名的DNS解析指向WAF提供的CNAME地址,才可以使域名的Web请求解析到WAF进行安全防护。本文介绍如何修改域名DNS解析设置。背景信息 WAF仅...
概述 当用户使用CDN加速域名后进行访问,客户端的请求将首先发送到CDN的L1节点,再通过L1—L2—源站的网络路径回源获取资源。因此如果访问过程中出现问题就可能涉及到多级网络链路的问题。当CDN回源源站异常失败时就会出现5XX的错误,主要...
本文介绍如何查看云助手状态,以及云助手状态异常时如何处理。查看云助手状态 登录 ECS管理控制台。在左侧导航栏,选择 运维与监控>发送命令/文件(云助手)。在页面左侧顶部,选择目标资源所在的地域。在 ECS实例 页签下,查看云助手状态...
2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...
相关文档 无法连接Linux实例的排查方法 无法远程连接Windows实例的排查方法 无法访问ECS实例中的服务的排查方法 Windows系统的ECS实例ping外网地址提示“一般故障”错误怎么办?为什么Windows系统的ECS实例配置辅助私网IP后,无法从ECS实例...
故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...
故障等级更新:当故障处理过程中或事后复盘,发现故障的影响程度发生变化,在 故障详情 页可以进行故障等级调整如故障升级或故障降级(P1-P4);变更所属服务:当故障处理过程中或事后复盘,发现故障影响的服务发生变化,在 故障详情 页更...
故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...
无论 SOFARegistry 是否宕机,SOFARPC 框架对服务提供者调用失败的情况,做了两方面的容错处理:调用重试:您可以配置调用重试,当发生非业务错误导致的请求失败时(例如网络超时等),会尝试重试(随机调用一个服务提供者重试)。...
另外也支持消息通知,当DLC任务发生异常并进行自动容错处理时,会发送消息通知。步骤一:配置容错监控参数 当前容错监控功能支持配置的全量参数如下,您可以参考常用参数配置示例,提前规划好要为任务配置的容错监控内容。后续开启容错监控...
如果节点长时间无法接收到心跳信号,可以判定为网络分区,进行相应的容错处理,例如切换到备用节点或等待网络分区恢复。容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使...
Windows系统:具体操作请参见 Windows实例ping外网地址提示“一般故障”。运营商问题:检查运营商是否存在网络问题,如公网运营商链路中断,路由震荡等。具体操作请参见 使用ping命令丢包或不通时的链路测试方法。相关文档 ECS实例间ping...
故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...
当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...
创建应用分组后,您可以查看应用分组的组内资源、监控视图、故障列表、可用性监控等数据,并执行相关操作。通过应用分组集中管理资源,便于您及时接收故障资源的报警通知,并及时处理故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择...
从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的...
若存在网络故障,请使用ping命令测试与OSS的网络连通性,确保网络正常后再进行下一步排查。检查上传文件的大小是否超过限制。通过OSS控制台上传、简单上传、表单上传、追加上传的方式上传单个文件,文件的大小不能超过5 GB。如要上传超过5 ...
界面显示黑色只能看到cmd命令行 问题描述 远程登录Windows系统后显示黑色,只能看到cmd命令行,无法正常进入Windows系统。说明 以Windows Server 2012操作系统为例。问题原因 在安装Windows Server 2012系统时选择的核心模式,图形界面没有...
ASM提供了超时处理、重试机制、隔板模式和熔断机制容错解决方案,在不修改应用程序任何代码的情况下为应用程序带来了容错能力。超时处理 原理介绍 当请求上游服务的时候,存在上游服务一直没有响应的现象。您可以设置一个等待时间,到达...
ASM提供了超时处理、重试机制、隔板模式和熔断机制容错解决方案,在不修改应用程序任何代码的情况下为应用程序带来了容错能力。超时处理 原理介绍 当请求上游服务的时候,存在上游服务一直没有响应的现象。您可以设置一个等待时间,到达...
定位故障根源:经过消息演练之后,积累了消息系统的处理经验,对于未来的系统诊断定位有参考和提升作用。消息的演练场景 消息服务通常是由不同的模块组成。例如,RocketMQ分为生产者Producer、消费者Consumer、服务集群Broker和注册中心...
本文介绍SAG-1000设备无法ping通ECS实例的原因和处理方法。问题现象 终端无法连接到阿里云,例如ping不通同CEN的ECS。可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入...
故障自动容错:主备双活功能提供故障自动容错能力,在故障场景下可以自动进行主备节点切换。通常需要进行主备集群切换的场景如下:机房出现断网断电等故障。无法正常连接主集群,请求全部报错。由于软件Bug导致全集群宕机。由于慢盘或者坏...
在宿主机部署完SAG vCPE后,运行docker ps命令查看已有容器,控制台显示离线状态,管控隧道状态为异常,怎么处理?部署SAG vCPE镜像时报错,怎么处理?当部署SAG vCPE镜像执行脚本出现访问被拒时,怎么处理?部署SAG vCPE镜像完成后,序列...
本文介绍智能接入网关设备显示离线的原因和处理方法。问题现象 登录 智能接入网关控制台,查看设备状态为 离线。可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的...
程序客户端需要对超时和慢请求做容错处理。由于 Tair 服务可能因网络波动或资源占满引发超时或慢请求,您需要在程序客户端上设计合理的容错机制。程序客户端应设置相对宽松的超时重试时间。如果超时重试时间设置的非常短(例如200毫秒以下...
这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能因为IO处理能力下降导致集群出现雪崩效应、引起重大生产事故。因此需要对磁盘故障进行有效监控以便及时发现故障。当磁盘发生故障时,应及时...
程序客户端需要对超时和慢请求做容错处理。由于Redis服务可能因网络波动或资源占满引发超时或慢请求,您需要在程序客户端上设计合理的容错机制。程序客户端应设置相对宽松的超时重试时间。如果超时重试时间设置的非常短(例如200毫秒以下)...
对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工判断,及时识别风险或故障,以风险预警和故障通告的形式快速调度应急负责人上线处理,避免业务受损或降低业务受损程度。之所以设立7*24监控值班,是因为报警...
介绍SAG-100WM设备 ping 不通同云企业网CEN(Cloud Enterprise Network)的云服务器ECS(Elastic Compute Service)或同云连接网CCN(Cloud Connect Network)内的客户端的处理方法。问题现象 终端无法连接到阿里云。例如 ping 不通同CEN的...
输入企业标识并单击确认后,进入白屏,左上角显示“bad request”?可能是管理员在自定义身份源中未添加任何用户信息导致,需要添加用户信息后再尝试登录 SASE App。具体操作,请参见 配置SASE身份源。企业员工是否可以自行卸载 SASE App?...
健康检查探测到物理专线链路故障后并不会向您发送通知,推荐您为物理专线配置报警规则,物理专线触发报警规则后,系统会向您发送报警通知,方便您及时处理问题。警告 健康检查目标IP地址必须保证能正常回应ping的探测,本地数据中心不能对...