故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

云原生应用交付平台支持被审计的事件说明

云原生应用交付平台已与操作审计服务集成,您可以在操作审计中查询用户操作云原生应用交付平台产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作审计...

常见问题

任务管理常见问题 Spring应用找不到Bean怎么办?任务失败,报错“submit jobInstanceId to worker timeout”任务失败,报错“used space beyond 90.0%!任务失败,报错“ClassNotFoundException”任务失败,报错“jobInstance=xxx don't ...

事件中心

事件中心将云产品所生成的事件数据进行统一管理、存储、分析和展示,已接入EDAS的变更事件、ARMS的报警事件、0-1事件(如死锁、OOM和应用启动等)、MSE的微服务管控事件和K8s集群事件。当您的应用使用了相关的产品,对应的事件会自动接入...

常见问题

本文梳理了常见应用监控计费问题,帮助您更准确的理解计费规则。新版计费与旧版计费的主要区别是什么?如何调整数据存储周期?已开通ARMS的账号如何切换到新版计费?新版计费模式是否支持预付费?如何停止计费?新版计费与旧版计费的主要...

索引

报警常见问题 killed from server don't update progress more than 30s 任务管理常见问题 Spring应用找不到Bean怎么办?任务失败,报错“submit jobInstanceId to worker timeout”任务失败,报错“used space beyond 90.0%!任务失败,报...

节点部署失败

部署失败的常见原因 应用配置中节点拖拽后的连线依赖有问题,可以详细查看 应用配置 来规避该问题。例如软件由3部分组成(MySQL节点、初始化MySQL节点、tomcat节点),但是连线顺序错误使得系统先部署了初始化MySQL节点,最终由于MySQL节点...

应用场景

服务网格 ASM主要适用于需要对应用服务进行流量管理、安全管理、故障恢复、观测监控以及微服务架构迁移的应用场景。本文介绍ASM的常见应用场景。流量管理 通过ASM,可以轻松实现基于配置的流量管理:将流量管理与基础设施管理分隔开来,并...

什么是Web应用防火墙

Web应用防火墙(Web Application Firewall,简称WAF)对网站或者App的业务流量进行恶意特征识别及防护,在对流量进行清洗和过滤后,将正常、安全的流量返回给服务器,避免网站服务器被恶意入侵导致性能异常等问题,从而保障网站的业务安全...

什么是Web应用防火墙

Web应用防火墙(Web Application Firewall,简称WAF)为您的网站或App业务提供一站式安全防护。WAF可以有效识别Web业务流量的恶意特征,在对流量清洗和过滤后,将正常、安全的流量返回给服务器,避免网站服务器被恶意入侵导致性能异常等...

计费相关配置问题

本文梳理了常见应用监控计费问题,帮助您更准确地理解计费规则。同一应用安装于多台电脑上如何计费?开通应用监控基础版后,可以看到哪些数据,是一直免费的吗?如何调整应用监控数据存储周期?如何调整调用链采样率?开通应用监控专家版...

什么是应用监控

ARMS应用监控是一款应用性能管理(Application Performance Management,简称APM)产品。您无需修改代码,只需为应用安装一个探针,ARMS就能够对应用进行全方位监控,帮助您全面掌控应用运行状态,快速定位出错接口和慢接口,洞察性能瓶颈...

使用Cloud Toolkit插件单批发布应用(K8s)

您在本地完成应用的开发、调试和测试后,可以在IntelliJ IDEA中安装Cloud Toolkit插件实现EDAS应用的快速部署。本文档将介绍如何在IntelliJ IDEA中安装Cloud Toolkit,并快速部署应用到容器服务K8s集群。前提条件 下载并安装 JDK 1.8或更高...

基本概念

可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。VPC 专有网络 VPC(Virtual Private Cloud)是基于阿里云创建的自定义私有网络。不同的专有网络之间二层逻辑隔离,您可以在自己创建的专有网络内创建...

通过错/慢调用链排查应用产生异常的原因

在生产环境中,引发应用异常(如耗时突增、错误率突增)的原因有很多,常见的包括流量不均、单机故障、程序异常和依赖组件故障等。在新应用上线或大促备战前通常建议做一次系统性的性能调优,分析当前系统存在哪些性能瓶颈,梳理出常出错的...

常见问题

本文汇总了使用多活容灾时的常见问题。MSHA基础常见问题 什么是MSHA?如果用户自有机房,计划同城新建一个机房,应选用什么架构?用户要做容灾架构,是否必须全套都使用阿里云产品?同城多活常见问题 假设数据库主备,ECS双可用区部署,...

常见问题-FAQ

重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL...

FAQs

GTM是集成了DNS的智能解析功能、云监控的应用服务监控功能,为客户输出不同网络或地区用户访问实现就近接入、应用服务运行状态的健康检查、故障自动切换等能力。GTM 是现有云解析DNS中全局负载均衡(GSLB)的升级和替代产品,GTM比GSLB支持...

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

常见问题

重要提示 AI Earth地球科学云平台现已上线,点击立即体验 AI Earth地球科学云平台基于达摩院在深度学习、计算机视觉、地理空间分析等方向上的技术积累,结合阿里云强大算力支撑,提供低门槛、界面化的云GIS工作空间,适用于多源对地观测...

应用诊断

应用诊断是对应用的单独故障诊断,可以由链路诊断触发或人工触发。高可用管理平台通过应用诊断初步定位问题,锁定可疑应用,再通过 Arthas 和线程分析进一步确认问题。目前,应用诊断支持用户应用和蚂蚁应用应用诊断是故障诊断的原子能力...

诊断应用卡顿问题

排查、解决网站卡顿、页面加载过慢等问题过程复杂,耗时较长,原因如下:应用链路太长 从前端页面到后台网关,从Web应用服务器到后台数据库,任何一个环节出现故障都有可能导致整体卡顿。采用微服务架构的应用,链路更加复杂,而且不同组件...

产品架构

高可用管理平台 HAS 在蚂蚁 SOFA 中间件以及 Café 应用发布平台的基础上,为用户应用及蚂蚁应用提供日常巡检、风险管理、应急预案、故障演练等技术风险管理能力,满足用户应用巡检、故障处置、应急管理、故障演练等多种应用运维场景。...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

应用防护规则常见问题

本文列举了应用防护规则常见的问题。请求链路页面添加规则是给单台机器添加还是给所有机器都添加?添加规则会推送到所有机器。流控规则中的来源应用是什么意思?Sentinel支持按调用来源限流。流控规则中来源应用(针对应用)指的是调用该...

通过公网访问应用

应用创建完成后,Serverless 应用引擎 SAE(Serverless App Engine)会免费提供一个默认的公网地址,您可以通过该公网地址访问应用。本文介绍如何设置公网访问、添加公网访问IP白名单并通过公网访问应用,以及常见问题与对应的解决方案。...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器 实例需处于 运行中 状态。操作场景 推荐您...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

本地验证

已在 Web应用防火墙(Web Application Firewall,简称WAF)中添加域名,还未修改域名的DNS解析(将网站域名解析到WAF)时,建议您通过修改本地计算机的DNS解析,在本地计算机上验证WAF的域名接入设置正确有效。本文以Windows操作系统为例,...

本地验证

已在 Web应用防火墙(Web Application Firewall,简称WAF)中添加域名,还未修改域名的DNS解析(将网站域名解析到WAF)时,建议您通过修改本地计算机的DNS解析,在本地计算机上验证WAF的域名接入设置正确有效。本文以Windows操作系统为例,...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

GTM实现跨网访问加速与故障切换

方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障切换,...

智能边缘一体机产品介绍

一、产品概要 边缘应用是指部署在用户现场的应用常见于一些用户对数据处理实时性、安全性和运行可靠性要求比较高的场景下。如门禁系统、楼宇自动化BA系统、视频算法应用等。EdgeBox是一种现场应用部署模式的变革,通过Kubernetes技术,将...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

应用场景

体系化故障闭环管理 应用场景 基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。能够解决 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息...

轻量应用负载均衡概述

轻量应用负载均衡是专为轻量应用服务器打造的负载均衡服务。本文主要介绍轻量应用负载均衡功能、计费、使用限制、应用场景以及相关操作等信息。简介 轻量应用负载均衡可以将公网访问的流量分发到后端的多台轻量应用服务器。该功能扩展了...

源服务器迁移至轻量应用服务器

服务器迁移中心 支持将其他厂商轻量服务器(腾讯云轻量应用服务器、AWS Lightsail Instance和华为云云耀云服务器)迁移至阿里云 轻量应用服务器。本文介绍如何将其他...常见错误及修复方案的更多信息,请参见 常见问题 和 服务器迁移故障

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
Web应用防火墙 云数据库 RDS 轻量应用服务器 域名 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用