高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。
常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...
移动数据分析常见问题索引 统计原理常见问题 Q1:如何识别一个用户?Q2:用户在一台设备上反复卸载并重新安装启动应用,新增用户算几个?Q3:同一个用户由老渠道升级到新渠道,是否会被算到新渠道中?Q4:什么是活跃用户?哪里可以看到下载和...
本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...
以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...
告警数预测原理 ARMS会根据指标历史24h数据,计算指标会超出每个阈值的次数来预测在该设定下告警的数量。并且,ARMS提供了指标详细信息,您可以看到指标实际值超出阈值的具体时间。您可以根据这些信息调整阈值,以适配实际业务需求。相关...
告警数预测原理 ARMS会根据指标历史24h数据,计算指标会超出每个阈值的次数来预测在该设定下告警的数量。并且,ARMS提供了指标详细信息,您可以看到指标实际值超出阈值的具体时间。您可以根据这些信息调整阈值,以适配实际业务需求。相关...
告警数预测原理 ARMS会根据指标历史24h数据,计算指标会超出每个阈值的次数来预测在该设定下告警的数量。并且,ARMS提供了指标详细信息,您可以看到指标实际值超出阈值的具体时间。您可以根据这些信息调整阈值,以适配实际业务需求。相关...
日志服务帮助畅捷通运维开发团队解决了误报...畅捷通通过日志服务将各块汇集过来的数据进行标记后,与应用的配置信息进行关联和整合,通过时序发现故障的根因,从而可以实现故障预测。畅捷通基于日志服务打造的智能运维平台的架构如下图所示。
检测原理 故障驱动。异常驱动。周期性识别 无。自动识别。适应性 无法自适应业务特征。自适应业务特征。预测能力 无。具备预测能力。查看异常检测结果 在DAS的自治中心,可以直接查看选定时间范围内检测到的异常事件。登录 DAS控制台。在...
功能原理 单机故障剔除会统计一个时间窗口内的调用次数和异常次数,并计算每个服务对应 IP 的异常率和该服务的平均异常率。当 IP 的异常率大于服务平均异常率,且达到一定比例时,单机故障剔除会对该服务+IP 的维度进行权重降级。如果该...
NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题
常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...
常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...
物联网设备无时无刻不在产生海量的设备状态数据和业务消息数据,这些数据有助于进行设备监控、业务分析预测和故障诊断。背景信息 设备将原始数据通过 MQTT 协议发送到物联网平台,经由物联网平台将数据转发到消息服务系统,继而通过流计算...
通过温度传感器对整个风机的温度测点进行实时监控,并对海量温度数据进行深度学习,构建风机故障检测与感知预测模型,最终做到提前1-2周识别风机微小故障并预警,单台风机单次重大事件维护成本大大降低。生产工艺优化 您可以使用工业大脑...
在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题
常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...
本文列出了虚拟机常见的故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...
冗余的算力配置,可以大幅提升硬件风险应对能力 云盒提供的IaaS层稳定性,依赖于云上提前预测硬件故障的算法能力,以及宕机迁移和热迁移能力。这些能力可以有效提升云盒IaaS层的故障和风险应对能力,但也需要一定的冗余资源,以便在硬件...
概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...
数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...
常见的故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...
概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...
概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...
类目预测基本原理 类目预测的目标是预测搜索的query与类目的相关度,它需要用到历史query数据、点击行为数据、类目下的物品信息数据。具体来说是把之前搜过的query收集起来,结合搜索后的点击行为数据,与类目下的物品信息联系起来,刻画...
控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...
模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障)常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...
ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...
为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障)常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。
保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?
保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?
保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?
网站耗资源(客户程序故障)常见问题 通过Robots协议屏蔽搜索引擎抓取网站内容 流量统计常见问题 云虚拟主机可以升级到云服务器ECS吗?如何取消云虚拟主机的自动续费功能?产品计费问题 计费常见问题 安装网站程序问题 安装完WordPress程序...
现实中常见的workload场景,如毛刺特征、周期性特征、趋势性特征、均值偏移特征等,异常检测服务都能够准确自动识别,并支持多种时序特征叠加识别,识别出异常后,会触发基于根因的全局诊断分析,以及后续的异常恢复、优化自治场景。故障自...
本文介绍网络诊断的基本原理、使用方式、以及如何针对常见网络不通的场景定位网络问题和使用网络诊断。重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本、负载、Docker、Kubelet等...
以及关键扇区的含义和作用,查看和编译磁盘结构的主要工具,例如Linux系统下的fdisk,并重点针对常见的磁盘故障进行了场景化的分析,介绍相应的恢复方法以及深入介绍了阿里云存储的架构和基本原理。该模块是阿里云块存储知识的高级知识,...
告警数预测原理 ARMS会根据指标历史24h数据,计算指标会超出每个阈值的次数来预测在该设定下告警的数量。并且,ARMS提供了指标详细信息,您可以看到指标实际值超出阈值的具体时间。您可以根据这些信息调整阈值,以适配实际业务需求。相关...
告警数预测原理 ARMS会根据指标历史24h数据,计算指标会超出每个阈值的次数来预测在该设定下告警的数量。并且,ARMS提供了指标详细信息,您可以看到指标实际值超出阈值的具体时间。您可以根据这些信息调整阈值,以适配实际业务需求。相关...
告警数预测原理 ARMS会根据指标历史24h数据,计算指标会超出每个阈值的次数来预测在该设定下告警的数量。并且,ARMS提供了指标详细信息,您可以看到指标实际值超出阈值的具体时间。您可以根据这些信息调整阈值,以适配实际业务需求。相关...