应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

运维服务内容说明

注:对于不在服务范围内的第三方应用软件问题,客户需联系相应供应商提供技术支持。3.前提条件 客户应提前至少15个自然日申请该服务,以便于阿里云工程师评估可运维性,确认是否承接该服务申请。如购买驻场服务,客户应在服务开始时提供...

功能特性

故障演练 故障演练 提供了故障注入能力,通过演练平台主动触发故障,以此观测应用软件的高可用性。故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的...

灾备规划

云上容灾 为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

异地应用双活切流

说明 用户应用出现故障,将故障应用对应的单元(地域)流量切0,由正常单元(地域)承担全部流量。a.选择 故障单元,代表此时,该单元当前出现故障,无法承接流量,MSHA会自动将该单元的流量置0,将另一个单元置为100。b.单击 下一步,进入...

故障演练

并且有个规律,硬件故障的现象,会在软件故障现象上有所体现。故障隶属于单机或是分布式系统之一,分布式故障包含单机故障。对于单机或同机型的故障,以系统为视角,故障可能是当前进程内的故障,比如:如FullGC,CPU飙高;进程外的故障,...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

3.创建应用

​ IDaaS 中预集成了一系列常用企业软件应用模板,进行了深度配置优化,可一键添加,配置简单。说明 对于市面上其他应用和自研应用,可以使用【标准协议】和【自研应用】模板进行接入。【阿里云用户 SSO】应用是市场中的第一个,点击添加...

变更流程错误码说明

EDAS-10022 报错信息 EDAS-10022 K8s_READINESS_ERROR 可能的原因 应用启动失败,规定时间内READINESS检查失败。处理办法 请检查相关配置是否正确。EDAS-10023 报错信息 EDAS-10023 K8s_BACKOFF_RESTART 可能的原因 应用启动失败。处理办法...

查看变更记录

当您在SAE上进行应用部署、启动、扩容/缩容等...应用变更典型异常及处理 端口健康检查异常导致变更失败 可能原因 应用启动时应该被正常占用的65000端口不可访问。客户的Tomcat容器没有正常启动。处理方法 查看应用日志是否有相应的异常日志。

变更流程问题排查指南

端口健康检查异常导致变更失败 可能原因 应用启动时应该被正常占用的65000端口不可访问。客户的Tomcat容器没有正常启动。处理方法 查看应用日志是否有相应的异常日志。URL健康检查失败导致变更失败 如果用户配置了健康检查URL,应用在启动...

为什么ACK集群应用安装探针后没有监控数据?

可能原因 应用监控被暂停。应用所在pod的探针没有被正确加载。解决方案 步骤一:检查 应用监控 是否被暂停 登录 ARMS控制台,在左侧导航栏选择 应用监控>应用列表。在 应用列表 页面顶部选择目标地域,然后单击目标应用名称。如果未找到...

故障管理

系统软件故障:包括操作系统死机、数据库的各类故障。硬件故障:包括硬盘、网卡损坏。相关设备故障:包括UPS失效引起的电力中断。自然灾害,包括洪水、火灾、地震。这里以阿里集团为例。为降低故障的影响,阿里集团故障管理体系从整体体系...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

什么是应用实时监控服务ARMS?

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

发布单排查指南

可能原因应用构建镜像失败,且历史构建也从来没成功过。SAE 会在构建镜像成功后把镜像地址回写到配置列表中,如果构建失败,会回滚到上一次发布成功的版本。如果历史从未构建成功,则此时无法回滚,会出现此异常。解决方案:重新部署一个...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...

基本概念

概念 描述 故障转移(Fail Over)即容灾恢复,指您的 IDC 应用出现故障时,在阿里云上恢复应用的过程。故障恢复(Fail Back)当您的 IDC 内的环境恢复以后,将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective(数据...

K8s应用运维管理最佳实践

本文介绍部署在K8s集群上的应用在不同阶段需要注意的事项,以及如何实现在第一时间获得EDAS的发布动态。应用开发 您可以使用不同的开发者工具来开发应用,帮助您提升开发和部署效率。应用部署与联调 Cloud Toolkit Cloud Toolkit是阿里云为...

部署高可用架构应用集群

背景信息 高可用架构应用集群具备的特点如下所述:轻量应用负载均衡可以将公网访问的流量分发到后端多台轻量应用服务器上,在增强应用吞吐能力的同时,可以消除服务器的单点故障,提升应用可用性。通过自定义镜像功能,您可以快速创建部署...

ADP底座介绍

ADP底座包含了两个部分:ADP容器底座:整个应用运行时的公共底座,是一个K8s为基础的容器云平台,他是应用自有组件和中间件的部署、运维的基础设施,为上层业务应用的运行和管理维护提供必要的系统支持。ADP-Local:跟随软件产品交付部署到...

AIOps 解决方案专家服务内容说明

乙方不负责非阿里云平台以外(第三方软件应用系统)问题处理、技术的支持和答疑工作。方案完成之后的具体实施等工作不在咨询服务范围之内。2.2.基础版服务范围 一个基础包包含连续10个工作日的AIOps解决方案协助实施服务,服务方式为远程...

远程连接FAQ

本文介绍在远程连接轻量应用服务器过程中可能存在的问题、排查思路和相应的解决方案。排查思路 如果无法远程连接轻量应用服务器时,阿里云推荐您按照以下思路排查问题。以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...

安装探针概述

为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...

接入主机

在普通主机上安装AHAS探针后,即可体验架构感知和故障演练功能,直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何将探针接入主机,主机类型包括Linux和Windows。操作步骤 登录 AHAS控制台,并...

接入ECS

AHAS架构感知和故障演练支持在ECS上一键安装应用高可用探针。安装成功后,您可以直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何快速接入ECS。前提条件 确保待安装探针的ECS系统为Linux或...

服务治理概述

部署和运维 EDAS多语言互通 查询多语言应用服务 为多语言应用配置故障注入 安全和可用性 使用服务鉴权实现多语言应用的访问控制 使用离群实例摘除保障多语言应用的可用性.aliware-toc-container.list-item{ white-space:normal;}

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控...

服务管控和治理

故障注入 您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。更多信息,请参见 故障注入。服务鉴权 服务提供者提供服务后,您可以通过...

读多写少型业务场景多活实践

导购链路对商品应用是强依赖,强依赖故障将导致业务不可用,因此故障的爆炸半径应该控制在单元内。创建故障演练。创建杭州单元商品中心故障的演练,具体操作,请参见 创建演练。故障注入。在多活容灾的 监控大盘 页面 异地双活 区域,查看...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器...轻量应用服务器故障问题,请参见 故障排除。

迁移ECS实例至轻量应用服务器

由于业务的需要,您可以将ECS实例中部署的网站程序迁移至轻量应用服务器。本文介绍如何迁移ECS实例至轻量应用服务器。前提条件 已创建与ECS实例操作系统版本相同的轻量应用服务器。具体操作,请参见 创建轻量应用服务器。说明 如果您已创建...

什么是用户体验监控

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

如何在轻量应用服务器中安装应用软件

概述 本文主要介绍如何在轻量应用服务器中安装应用软件。详细信息 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,...

故障排查

ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的排查方法 容器服务ACK应用故障排查 如何升级集群?排查故障的...

事件中心

事件中心将云产品所生成的事件数据进行统一管理、存储、分析和展示,已接入EDAS的变更事件、ARMS的报警事件、0-1事件(如死锁、OOM和应用启动等)、MSE的微服务管控事件和K8s集群事件。当您的应用使用了相关的产品,对应的事件会自动接入...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
Web应用防火墙 轻量应用服务器 云数据库 RDS 域名 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用