功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

ADP底座介绍

常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

故障管理

故障管理 故障管理是单独针对故障的一整套完成的应急相应流程机制,包括:故障应急、故障收敛故障追踪、故障复盘、故障改进等核心功能。通过建立故障应急机制,可保证服务稳定运行、服务体验保证等。故障管理也可以理解为重大事件的升级...

什么是故障

故障收敛:支持按时间/次数进行告警收敛,将告警收敛到一个故障中统一处理;故障追踪:支持对故障的最新进展、故障影响面(影响服务)、舆情反馈、Timeline时间线进行在线化管理、协同,基于统一视角协同处理故障,提升故障处理效率;故障...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...

通用性能

告警 支持主流协议 Snmptrap、Syslog、PING(同时支持采集性能告警)告警解析能力:支持 实时计算引擎,1万记录数/秒的分析入库 故障收敛能力:支持 按照规则和拓扑压缩归并 诊断自愈能力:支持 执行预分析和自动化管控任务,设备场景做到1...

AIOps 解决方案专家服务内容说明

依托阿里巴巴多年AI能力沉淀,以及阿里云专家经验,通过算法对监控指标进行建模与实时智能分析,当业务异常发生时,实时进行告警关联分析与收敛,帮助用户减少故障影响时间(MTTR),提高用户业务稳定性。它融合“人工智能+大数据+云计算”...

什么是应用监控

告警集成 ARMS监控针对JVM、主机、接口服务情况等指标类型,预置了50种以上的告警规则,您可以对这些规则进行灵活的调整与组合,并通过ARMS告警管理,实现告警的收敛、通知、升级、协同处理,确保及时发现并修复线上故障。开源集成 ARMS...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

畅捷通

日志服务帮助畅捷通运维开发团队解决了误报...畅捷通通过日志服务将各块汇集过来的数据进行标记后,与应用的配置信息进行关联和整合,通过时序发现故障的根因,从而可以实现故障预测。畅捷通基于日志服务打造的智能运维平台的架构如下图所示。

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

引擎功能

本文介绍时序引擎的实用功能。时序数据高效读写 Lindorm时序引擎提供高效的并发读写,支持每秒百万数据点的数据读取及千万数据点的写入能力。...目前支持常见时序预测及时序异常检测算法,具体说明,请参见 数据库内机器学习。

新手指引

模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...

x13_arima

常见的异常包括时序差分diff后不稳定、训练没有收敛、方差为0等,您可以在logview中查看单独节点的stderr文件,获取具体的异常信息。参数非常多,如何设置?x13_arima组件需要设置p、d、q、sp、sd和sq等参数,如果不确定如何配置,建议使用 ...

如何高效地查询时序数据

常见时序查询场景和查询操作 重要 如果需要复现以下查询场景的结果,请下载相应的 SQL脚本语句 填写样例数据。查询时间范围内的原始点 使用以下语句查询余杭区内设备从2019-04-18 10:00:00至2019-04-18 10:30:00上报的全部SO2监控指标。...

x13_auto_arima

常见的异常包括时序差分diff后不稳定、训练没有收敛、方差为0等,您可以在logview中查看单独节点的stderr文件,获取具体的异常信息。参数非常多,如何设置?x13_arima组件需要设置p、d、q、sp、sd和sq等参数,如果不确定如何配置,建议使用 ...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

耗资源用户处理流程

为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。

如何配置流转规则

触发故障 确定 故障触发规则:设置触发的持续时长和次数对故障进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发故障,只要将时长和次数分别设置为5分钟和3次即可;影响服务:设置故障的 影响面;故障触发后,对其同样存在影响的...

步骤六:启动复制

保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?

常见问题

网站耗资源(客户程序故障常见问题 通过Robots协议屏蔽搜索引擎抓取网站内容 流量统计常见问题 云虚拟主机可以升级到云服务器ECS吗?如何取消云虚拟主机的自动续费功能?产品计费问题 计费常见问题 安装网站程序问题 安装完WordPress程序...

应用故障自动诊断

常见故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

基础版

从采集到分析-TSDB For InfluxDB®让你的数据产生价值 Grafana接入阿里云时序数据库TSDB For InfluxDB®️服务 Prometheus对接阿里云TSDB For InfluxDB®️服务 Grafana监控可视化 常见问题 云时序数据库InfluxDB®同开源本的InfluxDB有...

应用场景

能够解决 多源监控集成:支持多个常见监控系统集成,简单配置即可完成集成对接。报警统一处理:所有报警进行集中降噪处理,抑制收敛,避免报警风暴。事件闭环管理:对报警生成事件,进行全生命周期管理,不遗漏重大事件。体系化故障闭环...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

配置BGP与BFD联动实现路由快速收敛

通过在本地数据中心IDC(Internet...如果云企业网中存在两个VBR,配置了BFD的VBR故障后,是否还可以实现路由快速收敛?需要将两个VBR加入同一个快速倒换组后,才可以实现路由快速收敛。关于配置快速倒换组的具体操作,请参见 配置快速倒换组。

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

产品优势

主要优势 多监控系统集成:支持10+常见监控系统集成,简单配置即可快速完成对接;灵活的报警降噪能力:支持横向抑制、纵向收敛,全面压制报警风暴,不再遗漏核心报警;大幅降低事务性操作:完善的事件分派、通知机制,避免重复事务性操作,...

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断工具。本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后...如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

监控服务概览

OSS监控服务为您提供系统基本运行状态、性能以及计量...故障排除 提供常见的问题场景和故障排除方法。注意事项 OSS Bucket全局唯一,如果删除Bucket之后再创建同名的Bucket,那么被删除的Bucket的监控以及报警规则会应用在新的同名Bucket上。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库HBase版 时间序列数据库 TSDB 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用