排查故障的经典步骤与常见原因 如何通过查看日志排查故障?产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...
再者云计算平台会提供冗余存储和备份能力,避免系统因为硬件故障或其他原因导致的停机或数据丢失。这种备份机制可以提高系统的可靠性。责任共担模型 阿里云平台提供高可用的基础设施,并提供应用稳定性相关工具体系。用户可以基于阿里云...
如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...
可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的运营商网络正常。如果不正常,请处理运营商网络问题。如果正常,请跳转至 步骤2。请检查设备本身是否上电。电源状态...
分布式链路跟踪 分布式链路跟踪(Distributed System Tracing,简称 DST)是一款面向分布式架构、微服务架构和云原生架构的应用可观察性的金融级解决方案,帮助用户厘清应用间复杂的调用关系,迅速定位故障或者缓慢节点。产品架构 产品优势...
两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...
优化 选择注册中心运维方式 支持为多语言应用配置故障注入 通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力。新增 已下线 支持为多语言应用配置服务超时 服务超时机制可以在请求的处理时间超过设置的时间时直接返回错误...
说明 由于设备端存在的差异化,即使固件验证升级成功,也无法完全体现设备升级后各项功能是否正常可用,建议您在设备固件升级后自行检查设备是否正常使用,避免批量升级后引起大批量的设备故障。选择要进行批量升级的固件,单击 操作 中的 ...
解决方案:根据错误日志,查找原因并修复问题。关于异常问题排查,请参见 Nginx Ingress异常问题排查。Nginx Ingress中rewrite-target配合捕获组使用 异常影响:检查使用了rewrite-target的Nginx Ingress规则是否与捕获组一起使用。在0.22....
解决方案:根据错误日志,查找原因并修复问题。关于异常问题排查,请参见 Nginx Ingress异常问题排查。Nginx Ingress中rewrite-target配合捕获组使用 异常影响:检查使用了rewrite-target的Nginx Ingress规则是否与捕获组一起使用。在0.22....
解决方案:根据错误日志,查找原因并修复问题。关于异常问题排查,请参见 Nginx Ingress异常问题排查。Nginx Ingress中rewrite-target配合捕获组使用 异常影响:检查使用了rewrite-target的Nginx Ingress规则是否与捕获组一起使用。在0.22....
其根本原因是两套服务发现导致的不一致问题,因此解决办法较为简单,统一服务发现即可。也就是说,Kubernetes已经在Pod调度的同时维护了服务和Endpoint间的数据,则没有必要再单独使用一套命名服务的机制进行服务注册,统一收敛到...
Ingress支持 支持协议 路由配置 流量灰度 服务发现 后端服务负载均衡策略 后端服务配置 认证鉴权 限流降级 WAF防护 插件市场(Wasm插件)Tracing 访问日志 监控指标(Metrics)报警 高可用 性能(TLS硬件加速)各网关的产品定位及语言栈 ...
重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。Ingress诊断对应的...
重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。Ingress诊断对应的...
为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...
故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...
本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...
本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...
告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'productMethod':'created','language':'zh-CN',};
告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。icmsDocProps={'productMethod':'created','language':'zh-CN',};
网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...
主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...
Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...
云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...
因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...
3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...
相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...
选择容灾方案 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。选择大版本 推荐使用更新的大版本...
通过合理的流量分配及部署策略,可将生产流量逐步切至已发布新版本的应用上实现灰度及快速回滚,以最大限度避免非预期的变更部署问题导致的影响。业界广泛采用的发布策略包括:蓝绿发布:通过对服务新版本进行冗余部署实现。一般会将新版本...
CreateFaultInjectionRule 创建故障注入规则。CreateGovernanceKubernetesCluster 注册已接入服务治理的集群信息。CreateMseServiceApplication 创建应用。CreateNacosConfig 创建Nacos配置。CreateNacosInstance 创建Nacos实例。...
当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...
当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移Shard职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker Node3),...
cancelReason Long Body 否 取消原因 取消原因 problemNotifyType Long Body 否 PROBLEM_NOTIFY PROBLEM_NOTIFY 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 ...
排查故障的经典步骤与常见原因 如何通过查看日志排查故障?ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的...
告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换机配置故障。用户侧交换机和设备的连线问题。处理方法 检查用户侧交换机。...
可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请跳转...
可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标PC环境的网络故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看当前设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。...
可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请参见...
运维安全管理与灰度发布效率提升带来超过 50 万的成本节省。该企业在使用服务网格后,基础架构相关的故障从每年至少两起降为零起,节省了运维人员进行故障定位、修复的时间。同时,服务网格也提升了安全运维规则配置的效率,从一周 2 至 3 ...