网络架构容灾

但并不建议将全部ECS实例都部署在同一可用区内,建议在CLB的备可用区同时部署少量ECS实例,以保障在极端情况下(主可用区整体不可用时),切换到备可用区仍旧可以正常处理负载均衡转发的请求。多CLB实例的高可用 如果业务对可用性的要求...

Ambient Mesh模式概述

层级 主要功能 4层 流量管理:TCP路由 安全:面向4层的简单授权策略、双向TLS 可观测:TCP监控指标及日志 7层 流量管理:HTTP路由、负载均衡、熔断、限流、故障容错、重试、超时等 安全:面向7层的精细化授权策略 可观测:HTTP监控指标、...

Linux实例网站访问丢包延时高的排查方法

概述 当网站访问很慢或无法访问时,若已经排除显著的问题,而使用ping命令检测到有明显丢包时,建议您做链路测试。Linux环境下,推荐优先使用mtr命令行工具测试,或使用traceroute命令行工具进行链路测试来判断问题来源。通常情况下,链路...

功能概述

健康检查 针对地址池,可以配置健康检查,开启健康检查是指对地址池中的IP地址配置健康检查,开启可实现实时监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查支持的方式:ping、tcp、http(s)。...

API&SDK常见问题

您在使用短信服务API或SDK时,如果遇到疑问可以参考以下常见问题及处理建议。AccessKey是否支持调用短信API?AccessKey 是阿里云账号维度,并不固定用于阿里云哪个产品。如果您是RAM子账号的AccessKey,为对应的RAM子账号授权了哪些产品...

IIS常见问题排查

概述 本文主要介绍使用阿里云ECS实例搭建IIS网站时,遇到的一些常见问题的处理方法。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS...

CDN回源时网站出现5xx报错的排查方法

问题描述 当您使用阿里云CDN加速站点访问资源,客户端的请求将首先发送到CDN的L1节点(一级节点),再回源到L2节点(二级节点),然后再回源到源站。因此如果访问过程中出现问题,可能涉及到多级网络链路的问题。当CDN回源源站异常失败时...

无法访问ECS实例中运行网站的快速排查方法

一般情况下,如果这个数值除以逻辑CPU的数量大于5(具体数值需要根据实际服务器CPU处理能力以及系统使用情况而定),则表示系统在超负荷运转。此时,您可以根据进程列表中查看%CPU 较高的PID,定位异常进程即 COMMAND 参数值,然后根据您的...

修改域名DNS解析设置

通过CNAME接入方式将域名添加到 Web应用防火墙(Web Application Firewall,简称WAF),您需要将域名的DNS解析指向WAF提供的CNAME地址,才可以使域名的Web请求解析到WAF进行安全防护。本文介绍如何修改域名DNS解析设置。背景信息 WAF仅...

访问CDN加速域名返回5XX错误的常见问题

概述 当用户使用CDN加速域名进行访问,客户端的请求将首先发送到CDN的L1节点,再通过L1—L2—源站的网络路径回源获取资源。因此如果访问过程中出现问题就可能涉及到多级网络链路的问题。当CDN回源源站异常失败时就会出现5XX的错误,主要...

查看云助手状态及异常状态处理

本文介绍如何查看云助手状态,以及云助手状态异常时如何处理。查看云助手状态 登录 ECS管理控制台。在左侧导航栏,选择 运维与监控>发送命令/文件(云助手)。在页面左侧顶部,选择目标资源所在的地域。在 ECS实例 页签下,查看云助手状态...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

无法ping通ECS实例公网IP的排查方法

相关文档 无法连接Linux实例的排查方法 无法远程连接Windows实例的排查方法 无法访问ECS实例中的服务的排查方法 Windows系统的ECS实例ping外网地址提示“一般故障”错误怎么办?为什么Windows系统的ECS实例配置辅助私网IP,无法从ECS实例...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

如何管理故障

故障等级更新:当故障处理过程中或事复盘,发现故障的影响程度发生变化,在 故障详情 页可以进行故障等级调整如故障升级或故障降级(P1-P4);变更所属服务:当故障处理过程中或事复盘,发现故障影响的服务发生变化,在 故障详情 页更...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

常见问题

无论 SOFARegistry 是否宕机,SOFARPC 框架对服务提供者调用失败的情况,做了两方面的容错处理:调用重试:您可以配置调用重试,当发生非业务错误导致的请求失败时(例如网络超时等),会尝试重试(随机调用一个服务提供者重试)。...

AIMaster:弹性自动容错引擎

另外也支持消息通知,当DLC任务发生异常并进行自动容错处理时,会发送消息通知。步骤一:配置容错监控参数 当前容错监控功能支持配置的全量参数如下,您可以参考常用参数配置示例,提前规划好要为任务配置的容错监控内容。后续开启容错监控...

网络资源

如果节点长时间无法接收到心跳信号,可以判定为网络分区,进行相应的容错处理,例如切换到备用节点或等待网络分区恢复。容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使...

ECS服务器的外网地址ping不通的排查方法

Windows系统:具体操作请参见 Windows实例ping外网地址提示“一般故障”。运营商问题:检查运营商是否存在网络问题,如公网运营商链路中断,路由震荡等。具体操作请参见 使用ping命令丢包或不通时的链路测试方法。相关文档 ECS实例间ping...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

查看应用分组

创建应用分组,您可以查看应用分组的组内资源、监控视图、故障列表、可用性监控等数据,并执行相关操作。通过应用分组集中管理资源,便于您及时接收故障资源的报警通知,并及时处理故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择...

设计方案

从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的...

OSS文件上传和下载失败的排查方法

若存在网络故障,请使用ping命令测试与OSS的网络连通性,确保网络正常再进行下一步排查。检查上传文件的大小是否超过限制。通过OSS控制台上传、简单上传、表单上传、追加上传的方式上传单个文件,文件的大小不能超过5 GB。如要上传超过5 ...

远程登录Windows系统界面显示异常如何处理

界面显示黑色只能看到cmd命令行 问题描述 远程登录Windows系统后显示黑色,只能看到cmd命令行,无法正常进入Windows系统。说明 以Windows Server 2012操作系统为例。问题原因 在安装Windows Server 2012系统时选择的核心模式,图形界面没有...

使用ASM构建分布式系统的容错能力

ASM提供了超时处理、重试机制、隔板模式和熔断机制容错解决方案,在不修改应用程序任何代码的情况下为应用程序带来了容错能力。超时处理 原理介绍 当请求上游服务的时候,存在上游服务一直没有响应的现象。您可以设置一个等待时间,到达...

使用ASM构建分布式系统的容错能力

ASM提供了超时处理、重试机制、隔板模式和熔断机制容错解决方案,在不修改应用程序任何代码的情况下为应用程序带来了容错能力。超时处理 原理介绍 当请求上游服务的时候,存在上游服务一直没有响应的现象。您可以设置一个等待时间,到达...

什么是消息演练

定位故障根源:经过消息演练之后,积累了消息系统的处理经验,对于未来的系统诊断定位有参考和提升作用。消息的演练场景 消息服务通常是由不同的模块组成。例如,RocketMQ分为生产者Producer、消费者Consumer、服务集群Broker和注册中心...

ping不通云服务ECS(SAG-1000)

本文介绍SAG-1000设备无法ping通ECS实例的原因和处理方法。问题现象 终端无法连接到阿里云,例如ping不通同CEN的ECS。可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入...

主备方案介绍

故障自动容错:主备双活功能提供故障自动容错能力,在故障场景下可以自动进行主备节点切换。通常需要进行主备集群切换的场景如下:机房出现断网断电等故障。无法正常连接主集群,请求全部报错。由于软件Bug导致全集群宕机。由于慢盘或者坏...

智能接入网关vCPE FAQ

在宿主机部署完SAG vCPE,运行docker ps命令查看已有容器,控制台显示离线状态,管控隧道状态为异常,怎么处理?部署SAG vCPE镜像时报错,怎么处理?当部署SAG vCPE镜像执行脚本出现访问被拒时,怎么处理?部署SAG vCPE镜像完成,序列...

设备显示离线

本文介绍智能接入网关设备显示离线的原因和处理方法。问题现象 登录 智能接入网关控制台,查看设备状态为 离线。可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的...

Tair开发运维规范

程序客户端需要对超时和慢请求做容错处理。由于 Tair 服务可能因网络波动或资源占满引发超时或慢请求,您需要在程序客户端上设计合理的容错机制。程序客户端应设置相对宽松的超时重试时间。如果超时重试时间设置的非常短(例如200毫秒以下...

EMR Kafka磁盘故障运维

这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能因为IO处理能力下降导致集群出现雪崩效应、引起重大生产事故。因此需要对磁盘故障进行有效监控以便及时发现故障。当磁盘发生故障时,应及时...

云数据库Redis开发运维规范

程序客户端需要对超时和慢请求做容错处理。由于Redis服务可能因网络波动或资源占满引发超时或慢请求,您需要在程序客户端上设计合理的容错机制。程序客户端应设置相对宽松的超时重试时间。如果超时重试时间设置的非常短(例如200毫秒以下)...

故障发现

对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工判断,及时识别风险或故障,以风险预警和故障通告的形式快速调度应急负责人上线处理,避免业务受损或降低业务受损程度。之所以设立7*24监控值班,是因为报警...

ping不通云服务(SAG-100WM)

介绍SAG-100WM设备 ping 不通同云企业网CEN(Cloud Enterprise Network)的云服务器ECS(Elastic Compute Service)或同云连接网CCN(Cloud Connect Network)内的客户端的处理方法。问题现象 终端无法连接到阿里云。例如 ping 不通同CEN的...

安装登录问题

输入企业标识并单击确认,进入白屏,左上角显示“bad request”?可能是管理员在自定义身份源中未添加任何用户信息导致,需要添加用户信息再尝试登录 SASE App。具体操作,请参见 配置SASE身份源。企业员工是否可以自行卸载 SASE App?...

配置健康检查

健康检查探测到物理专线链路故障后并不会向您发送通知,推荐您为物理专线配置报警规则,物理专线触发报警规则,系统会向您发送报警通知,方便您及时处理问题。警告 健康检查目标IP地址必须保证能正常回应ping的探测,本地数据中心不能对...
共有133条 < 1 2 3 4 ... 133 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 OceanBase 版 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用