故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。
在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断
云上容灾 为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,...
说明 用户应用出现故障,将故障应用对应的单元(地域)流量切0,由正常单元(地域)承担全部流量。a.选择 故障单元,代表此时,该单元当前出现故障,无法承接流量,MSHA会自动将该单元的流量置0,将另一个单元置为100。b.单击 下一步,进入...
包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...
可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...
复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...
EDAS-10022 报错信息 EDAS-10022 K8s_READINESS_ERROR 可能的原因 应用启动失败,规定时间内READINESS检查失败。处理办法 请检查相关配置是否正确。EDAS-10023 报错信息 EDAS-10023 K8s_BACKOFF_RESTART 可能的原因 应用启动失败。处理办法...
当您在SAE上进行应用部署、启动、扩容/缩容等...应用变更典型异常及处理 端口健康检查异常导致变更失败 可能原因 应用启动时应该被正常占用的65000端口不可访问。客户的Tomcat容器没有正常启动。处理方法 查看应用日志是否有相应的异常日志。
端口健康检查异常导致变更失败 可能原因 应用启动时应该被正常占用的65000端口不可访问。客户的Tomcat容器没有正常启动。处理方法 查看应用日志是否有相应的异常日志。URL健康检查失败导致变更失败 如果用户配置了健康检查URL,应用在启动...
可能原因 应用监控被暂停。应用所在pod的探针没有被正确加载。解决方案 步骤一:检查 应用监控 是否被暂停 登录 ARMS控制台,在左侧导航栏选择 应用监控>应用列表。在 应用列表 页面顶部选择目标地域,然后单击目标应用名称。如果未找到...
概念 描述 故障转移(Fail Over)即容灾恢复,指您的 IDC 应用出现故障时,在阿里云上恢复应用的过程。故障恢复(Fail Back)当您的 IDC 内的环境恢复以后,将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective(数据...
基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...
为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...
解决的核心问题 混合云容灾解决的核心问题如下:应用级容灾保障业务持续性(Business Continuity):在数据中心故障或长时间系统维护作业时,在云上快速恢复应用运行,缩短业务停机时间,极大减少损失。数据级容灾:在数据中心备份您的数据...
在普通主机上安装AHAS探针后,即可体验架构感知和故障演练功能,直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何将探针接入主机,主机类型包括Linux和Windows。操作步骤 登录 AHAS控制台,并...
AHAS架构感知和故障演练支持在ECS上一键安装应用高可用探针。安装成功后,您可以直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何快速接入ECS。前提条件 确保待安装探针的ECS系统为Linux或...
所以接下来,我们将导购业务读链路相关的应用、中间件、数据库进行异地部署和多活改造。异地多读架构改造 基于MSHA多活容灾解决方案,可以快速的帮助业务进行异地多读容灾建设。多活改造和MSHA接入包括以下方面:分区维度:电商业务适合...
您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控...
您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...
部署和运维 EDAS多语言互通 查询多语言应用服务 为多语言应用配置故障注入 安全和可用性 使用服务鉴权实现多语言应用的访问控制 使用离群实例摘除保障多语言应用的可用性.aliware-toc-container.list-item{ white-space:normal;}
故障注入 您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。更多信息,请参见 故障注入。服务鉴权 服务提供者提供服务后,您可以通过...
实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器...轻量应用服务器故障问题,请参见 故障排除。
可能原因:应用构建镜像失败,且历史构建也从来没成功过。SAE 会在构建镜像成功后把镜像地址回写到配置列表中,如果构建失败,会回滚到上一次发布成功的版本。如果历史从未构建成功,则此时无法回滚,会出现此异常。解决方案:重新部署一个...
拓扑视图 拓扑视图首先会绘制出该应用的资源拓扑,包含该应用使用的ECS,该应用部署的实例Pod,该应用使用的所有RDS和Redis等中间件资源,以及该应用挂载的SLB和NAT等。之后会将获取到的关联事件、操作审计、云监控事件关联到对应的拓扑...
拓扑视图 拓扑视图首先会绘制出该应用的资源拓扑,包含该应用使用的ECS,该应用部署的实例Pod,该应用使用的所有RDS和Redis等中间件资源,以及该应用挂载的SLB和NAT等。之后会将获取到的关联事件、操作审计、云监控事件关联到对应的拓扑...
为应用安装ARMS探针后,就能在不改动应用代码的情况下,借助ARMS应用监控的异常自动捕捉、收集、统计和溯源等功能,准确定位应用中所有异常并进行线上诊断。问题描述 网页抛错,尤其是5xx错误是互联网应用最常见的问题之一。5xx错误通常...
“应用多活”是“应用容灾”技术的一种高级形态,指在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。当灾难发生时,多活系统可以分钟级内实现业务流量切换,用户甚至感受不到灾难发生...
当您在EDAS的K8s集群中创建、部署或扩容应用后,可以跳转到应用详情页面查看变更状态,同时还可以在变更记录中查看和分析应用部署失败的常见原因。查看部署失败的执行结果 在执行完应用部署操作后,返回 应用总览 页面。在 应用总览 上方,...
可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。VPC 专有网络 VPC(Virtual Private Cloud)是基于阿里云创建的自定义私有网络。不同的专有网络之间二层逻辑隔离,您可以在自己创建的专有网络内创建...
可能原因 查看应用日志报错的可能原因之一是:ulimit参数值过小,导致开启线程失败。说明 这个问题在新版EDAS Agent中已修复。解决方案 配置/etc/security/limits.d/20-nproc.conf 文件。添加配置项:admin soft nproc unlimited。执行 ...
应用限制 EDAS标准版不支持应用的实时诊断功能,专业版和铂金版支持应用的实时诊断功能。功能入口 登录 EDAS控制台。在左侧导航栏,单击 应用管理>应用列表,在顶部菜单栏选择地域并在页面上方选择微服务空间,在 集群类型 下拉列表中选择 ...
您在本地完成应用的开发、调试和测试后,可以在IntelliJ IDEA中安装Cloud Toolkit插件将应用快速部署到EDAS中。本文介绍如何在IntelliJ IDEA中安装Cloud Toolkit,并快速部署应用到EDAS。前提条件 已下载并安装 JDK 1.8或更高版本。已下载...
云原生应用交付平台已与操作审计服务集成,您可以在操作审计中查询用户操作云原生应用交付平台产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作审计...
可能原因:应用程序中存在错误,导致应用无法启动。未正确配置容器。Liveness探针失败次数太多。解决方法:您可以尝试从该容器中检索日志以调查失败原因。如果因为容器重新启动太快而看不到日志,则可以使用以下命令来查看日志:$kubectl ...
在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...
问题现象 应用创建成功后,在SAE控制台的概览页可以查询到对应的应用数量,但是无法在具体的应用列表找到该应用。可能原因 查询的地域、命名空间的范围有误。解决方案 登录 SAE控制台。确认地域是否正确。在顶部菜单栏,选择地域。确认命名...
在 读多写少型业务场景多活实践 中,已经将导购链路进行了异地多读改造,而该业务后续在一次大促期间,遭遇了一次订单应用大面积故障,导致大促期间下单业务长时间无法使用,于是下单业务的容灾建设也提上了议程。下单业务是典型的流水单据...
本文介绍使用SAE时,如何解决无法通过域名访问应用的情况。问题现象 已经绑定域名到SAE应用对应的公网地址,但仍然无法通过域名访问应用。可能原因 容器无法联通 公网无法正常访问 解决方案 测试容器内是否联通。通过Webshell进入容器,...
应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练场景。无论您是需要设置集群级别的大规模故障还是应用级别的请求级别细粒度故障,都可以在 AHAS Chaos 找到适合的场景,下...