应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

灾备规划

云上容灾 为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,...

常见问题FAQ

4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源键,重启魔盒。2.重复插拔HDMI线 3.重启屏幕 屏幕操作指南由屏幕供应商给出。4.屏幕的信号源切换到HDMI输入。屏幕操作指南由屏幕供应商给出。如无法排除故障:...

异地应用双活切流

说明 用户应用出现故障,将故障应用对应的单元(地域)流量切0,由正常单元(地域)承担全部流量。a.选择 故障单元,代表此时,该单元当前出现故障,无法承接流量,MSHA会自动将该单元的流量置0,将另一个单元置为100。b.单击 下一步,进入...

混合云应用双活容灾最佳实践

步骤二:应用故障注入 这里使用阿里云故障演练产品,对阿里云-北京地域的商品应用注入故障。登录 AHAS控制台。在左侧导航栏选择 故障演练>我的空间,并在顶部选择地域。在 我的空间 页面搜索配置好的演练(50%概率网络丢包),然后在该演练...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器...轻量应用服务器故障问题,请参见 故障排除

监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

基本概念

概念 描述 故障转移(Fail Over)即容灾恢复,指您的 IDC 应用出现故障时,在阿里云上恢复应用的过程。故障恢复(Fail Back)当您的 IDC 内的环境恢复以后,将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective(数据...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...

什么是混合云容灾服务

解决的核心问题 混合云容灾解决的核心问题如下:应用级容灾保障业务持续性(Business Continuity):在数据中心故障或长时间系统维护作业时,在云上快速恢复应用运行,缩短业务停机时间,极大减少损失。数据级容灾:在数据中心备份您的数据...

安装探针概述

为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

接入主机

在普通主机上安装AHAS探针后,即可体验架构感知和故障演练功能,直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何将探针接入主机,主机类型包括Linux和Windows。操作步骤 登录 AHAS控制台,并...

接入ECS

AHAS架构感知和故障演练支持在ECS上一键安装应用高可用探针。安装成功后,您可以直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何快速接入ECS。前提条件 确保待安装探针的ECS系统为Linux或...

服务治理概述

部署和运维 EDAS多语言互通 查询多语言应用服务 为多语言应用配置故障注入 安全和可用性 使用服务鉴权实现多语言应用的访问控制 使用离群实例摘除保障多语言应用的可用性.aliware-toc-container.list-item{ white-space:normal;}

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控...

服务管控和治理

故障注入 您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。更多信息,请参见 故障注入。服务鉴权 服务提供者提供服务后,您可以通过...

读多写少型业务场景多活实践

导购链路对商品应用是强依赖,强依赖故障将导致业务不可用,因此故障的爆炸半径应该控制在单元内。创建故障演练。创建杭州单元商品中心故障的演练,具体操作,请参见 创建演练。故障注入。在多活容灾的 监控大盘 页面 异地双活 区域,查看...

事件中心

事件中心将云产品所生成的事件数据进行统一管理、存储、分析和展示,已接入EDAS的变更事件、ARMS的报警事件、0-1事件(如死锁、OOM和应用启动等)、MSE的微服务管控事件和K8s集群事件。当您的应用使用了相关的产品,对应的事件会自动接入...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

事件中心

事件中心将云产品所生成的事件数据进行统一管理、存储、分析和展示,已接入EDAS的变更事件、ARMS的报警事件、0-1事件(如死锁、OOM和应用启动等)、MSE的微服务管控事件和K8s集群事件。当您的应用使用了相关的产品,对应的事件会自动接入...

功能发布记录(2018~2022年)

优化 选择注册中心运维方式 支持为多语言应用配置故障注入 通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力。新增 已下线 支持为多语言应用配置服务超时 服务超时机制可以在请求的处理时间超过设置的时间时直接返回错误...

云原生应用交付平台支持被审计的事件说明

云原生应用交付平台已与操作审计服务集成,您可以在操作审计中查询用户操作云原生应用交付平台产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作审计...

基本概念

可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。VPC 专有网络 VPC(Virtual Private Cloud)是基于阿里云创建的自定义私有网络。不同的专有网络之间二层逻辑隔离,您可以在自己创建的专有网络内创建...

轻量应用服务器数据迁移至ECS实例

如果在迁移过程中,出现报错信息,请参见 SMC FAQ 和 故障排除。后续步骤 由于更换了服务器,因此服务器的公网IP地址发生了变化。如果您之前的轻量应用服务器绑定并解析了域名,则您在完成数据迁移后,需要重新将该域名解析至目标ECS实例的...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

诊断网页加载过慢的问题

针对这类问题,ARMS前端监控的慢会话追踪功能提供页面静态资源加载的性能瀑布图,可深入定位页面资源加载情况,全方位地诊断故障根源,从而快速排除故障。问题描述 网页加载较慢是经常出现且前端非常关注的问题之一。定位、排查解决这类...

流水单据型业务场景多活实践

在 读多写少型业务场景多活实践 中,已经将导购链路进行了异地多读改造,而该业务后续在一次大促期间,遭遇了一次订单应用大面积故障,导致大促期间下单业务长时间无法使用,于是下单业务的容灾建设也提上了议程。下单业务是典型的流水单据...

常见问题-FAQ

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...

FAQs

GTM是集成了DNS的智能解析功能、云监控的应用服务监控功能,为客户输出不同网络或地区用户访问实现就近接入、应用服务运行状态的健康检查、故障自动切换等能力。GTM 是现有云解析DNS中全局负载均衡(GSLB)的升级和替代产品,GTM比GSLB支持...

功能优势

应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练场景。无论您是需要设置集群级别的大规模故障还是应用级别的请求级别细粒度故障,都可以在 AHAS Chaos 找到适合的场景,下...

故障排查

ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的排查方法 容器服务ACK应用故障排查 如何升级集群?排查故障的...

产品架构

高可用管理平台 HAS 在蚂蚁 SOFA 中间件以及 Café 应用发布平台的基础上,为用户应用及蚂蚁应用提供日常巡检、风险管理、应急预案、故障演练等技术风险管理能力,满足用户应用巡检、故障处置、应急管理、故障演练等多种应用运维场景。...

应用诊断

应用诊断是对应用的单独故障诊断,可以由链路诊断触发或人工触发。高可用管理平台通过应用诊断初步定位问题,锁定可疑应用,再通过 Arthas 和线程分析进一步确认问题。目前,应用诊断支持用户应用和蚂蚁应用应用诊断是故障诊断的原子能力...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

轻量应用负载均衡概述

当其中一部分轻量应用服务器发生故障后,负载均衡会自动屏蔽故障的轻量应用服务器,将请求分发给正常运行的轻量应用服务器,保证应用程序仍能正常工作。弹性管理应用程序的服务能力。您可以根据业务发展的需要,自行添加或移除轻量应用负载...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

EDAS直播公告

企业级分布式应用服务EDAS 3.0重磅发布 安利的企业微服务架构转型之路 云途时代数字化转型实践 EDAS 3.0核心功能演示 2020-05-15 微服务治理实践之金丝雀发布 应用的有些故障是因为发布直接或间接引起的,因此提升发布的质量,减少错误的...

源码部署常见问题

请按照以下顺序排除故障:检查代码仓库能否正常访问,是否更改了可见性权限。检查代码包是否过大、代码总量是否超过本地磁盘限额。如果使用中国内地的源码构建环境,推荐使用中国内地的代码托管平台导入代码。确认无误后,在构建记录页面...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
Web应用防火墙 轻量应用服务器 云数据库 RDS 域名 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用