应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

AIOps 解决方案专家服务内容说明

基于咨询服务的结果,支持客户选定AIOps方案工作,工作内容具体包含:协助开通云资源、云账号、完成智能故障发现解决方案、定制化业务风险巡检方案 提供技术支持、方案实施中关于方案本身遇到的问题排查与解决方案 协助进行应用接入工作,...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

如何解决MSE Nacos实例域名无法解析的问题?

UnknownHostException No route to host Unable to resolve host 问题原因 应用节点所配置的DNS服务器或NameServer不正确,导致无法解析MSE域名。容器未使用宿主机的DNS服务器或NameServer,或网络模式错误,导致无法解析MSE域名。应用节点...

功能优势

应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练场景。无论您是需要设置集群级别的大规模故障还是应用级别的请求级别细粒度故障,都可以在 AHAS Chaos 找到适合的场景,下...

附录:SOFAStack 产品目录

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系,吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证,为金融交易技术保证风险安全的同时,...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

异地应用双活切流

说明 用户应用出现故障,将故障应用对应的单元(地域)流量切0,由正常单元(地域)承担全部流量。a.选择 故障单元,代表此时,该单元当前出现故障,无法承接流量,MSHA会自动将该单元的流量置0,将另一个单元置为100。b.单击 下一步,进入...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

什么是应用实时监控服务ARMS?

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

查看变更记录

当您在SAE上进行应用部署、启动、扩容/缩容等...应用变更典型异常及处理 端口健康检查异常导致变更失败 可能原因 应用启动时应该被正常占用的65000端口不可访问。客户的Tomcat容器没有正常启动。处理方法 查看应用日志是否有相应的异常日志。

产品架构

高可用管理平台 HAS 在蚂蚁 SOFA 中间件以及 Café 应用发布平台的基础上,为用户应用及蚂蚁应用提供日常巡检、风险管理、应急预案、故障演练等技术风险管理能力,满足用户应用巡检、故障处置、应急管理、故障演练等多种应用运维场景。...

变更流程问题排查指南

端口健康检查异常导致变更失败 可能原因 应用启动时应该被正常占用的65000端口不可访问。客户的Tomcat容器没有正常启动。处理方法 查看应用日志是否有相应的异常日志。URL健康检查失败导致变更失败 如果用户配置了健康检查URL,应用在启动...

为什么ACK集群应用安装探针后没有监控数据?

可能原因 应用监控被暂停。应用所在pod的探针没有被正确加载。解决方案 步骤一:检查 应用监控 是否被暂停 登录 ARMS控制台,在左侧导航栏选择 应用监控>应用列表。在 应用列表 页面顶部选择目标地域,然后单击目标应用名称。如果未找到...

设计方案

软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制进行互相调用的微服务架构,到现在将云计算、容器化、微服务架构等技术结合...

混合云应用双活容灾最佳实践

容灾切换数据质量保障难 容灾切换过程中,可能因数据同步延迟导致读到旧数据,以及切换规则推送到分布式应用节点时间不一致等原因可能造成云上云下数据库同时读写而出现脏写的问题,整个切换过程数据质量保障是关键点及难点。无业务代码...

基于EIP配置SAE实例公网访问和访问公网的能力

根据 事件原因,排查故障。EipNotEnough:表示现有的EIP不足,需要申请相应数量的EIP或对应用进行缩容。具体操作,请参见 申请EIP 和 手动扩缩。EipNotReady:表示绑定或解绑EIP失败,请 加入钉群(钉群号:32874633),联系产品技术专家...

阿里云电子政务云产品全家福

阿里云电子政务云平台提供弹性计算类、网络、数据库、存储、大数据、中间件、IoT等品类丰富的产品及高标准的安全合规服务,用以支撑多种政务类业务场景,例如:城市大脑,合规应用平台等。截至文档发布时间,阿里云电子政务云共计上线95款...

部署高可用架构应用集群

背景信息 高可用架构应用集群具备的特点如下所述:轻量应用负载均衡可以将公网访问的流量分发到后端多台轻量应用服务器上,在增强应用吞吐能力的同时,可以消除服务器的单点故障,提升应用可用性。通过自定义镜像功能,您可以快速创建部署...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

WAF产品托管服务

云盾Web应用防火墙(WAF)支持产品托管服务。开通WAF产品托管后,您可以在阿里云安全产品专家的帮助下完成WAF接入配置、防护策略优化,并享有安全事件响应、安全咨询、安全培训与案例分享、安全报告分析等服务。概述 WAF产品托管由阿里云...

新手指引

Serverless 应用引擎 SAE(Serverless App Engine)是面向应用的Serverless PaaS平台,能够帮助PaaS层用户免运维IaaS、按需使用、按量计费,做到低门槛微服务、PHP应用上云。本文介绍如何使用 SAE,帮助您快速了解 SAE 以及各方面的实践...

远程连接FAQ

本文介绍在远程连接轻量应用服务器过程中可能存在的问题、排查思路和相应的解决方案。排查思路 如果无法远程连接轻量应用服务器时,阿里云推荐您按照以下思路排查问题。以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低...

基本概念

概念 描述 故障转移(Fail Over)即容灾恢复,指您的 IDC 应用出现故障时,在阿里云上恢复应用的过程。故障恢复(Fail Back)当您的 IDC 内的环境恢复以后,将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective(数据...

发布单排查指南

可能原因应用构建镜像失败,且历史构建也从来没成功过。SAE 会在构建镜像成功后把镜像地址回写到配置列表中,如果构建失败,会回滚到上一次发布成功的版本。如果历史从未构建成功,则此时无法回滚,会出现此异常。解决方案:重新部署一个...

应用场景

同时不断更新优化日常巡检、故障诊断、应急预案等内容的建设,不断丰富和完善应用技术风险防控体系,简化日常应用运维操作。故障演练 为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...

【通知】故障演练功能模块退市公告

由于业务及技术架构调整,阿里云将于2024年05月01日起停止应用高可用服务AHAS下的故障演练功能模块的技术支持,并于2024年11月01日正式下线该模块,但飞天企业版的应用高可用服务AHAS的故障演练CHAOS模块将持续发展。此外,应用高可用服务...

什么是用户体验监控

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

常见问题-FAQ

重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL...

FAQs

GTM是集成了DNS的智能解析功能、云监控的应用服务监控功能,为客户输出不同网络或地区用户访问实现就近接入、应用服务运行状态的健康检查、故障自动切换等能力。GTM 是现有云解析DNS中全局负载均衡(GSLB)的升级和替代产品,GTM比GSLB支持...

设置健康检查

应用部署在 SAE 后,您可以使用健康检查功能查看应用实例与业务运行是否正常,以便运行异常时定位问题。SAE 支持在创建或部署中配置,本文介绍如何在 SAE 控制台配置健康检查。背景信息 健康检查原理 健康检查是指由Liveness探针或者...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 ...

本地验证

已在 Web应用防火墙(Web Application Firewall,...获取技术支持 如果您无法排查出域名接入设置的故障,需要进一步技术支持,您可以购买 Web应用防火墙支持服务,获取第三方服务团队提供的专业技术支持,包括WAF接入指导和基础安全咨询等。

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控...

故障排查

ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的排查方法 容器服务ACK应用故障排查 如何升级集群?排查故障的...

接入主机

在普通主机上安装AHAS探针后,即可体验架构感知和故障演练功能,直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何将探针接入主机,主机类型包括Linux和Windows。操作步骤 登录 AHAS控制台,并...

K8s集群应用部署失败的原因分析

当您在EDAS的K8s集群中创建、部署或扩容应用后,可以跳转到应用详情页面查看变更状态,同时还可以在变更记录中查看和分析应用部署失败的常见原因。查看部署失败的执行结果 在执行完应用部署操作后,返回 应用总览 页面。在 应用总览 上方,...

接入ECS

AHAS架构感知和故障演练支持在ECS上一键安装应用高可用探针。安装成功后,您可以直观地查看应用对基础架构的依赖关系,组件间的依赖关系,以及对应用进行故障演练。本文介绍如何快速接入ECS。前提条件 确保待安装探针的ECS系统为Linux或...

服务治理概述

部署和运维 EDAS多语言互通 查询多语言应用服务 为多语言应用配置故障注入 安全和可用性 使用服务鉴权实现多语言应用的访问控制 使用离群实例摘除保障多语言应用的可用性.aliware-toc-container.list-item{ white-space:normal;}
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
轻量应用服务器 域名 云数据库 RDS 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用