应对大规模资源的监控

相关文档 通过报警模板设置应用分组的报警规则 通过标签自动监控资源 如果您的报警规则已触发报警,但是报警联系人未收到报警短信报警电话,处理方法,请参见 如何处理未收到报警电话的问题 如何处理未收到报警短信问题。

产品简介

自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了...

设计原则

但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制稳定的技术平台,实现故障风险实时发现、应急团队有效协同、处理过程准确记录、故障快速止损恢复以及后续故障复盘,旨在提高故障应急效率,减小故障...

设备显示离线

本文介绍智能接入网关设备显示离线的原因和处理方法。问题现象 登录 智能接入网关控制台,查看设备状态为 离线。可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练恢复计划,保证用户能够有计划地测量观测应用高可用能力。

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

故障排查

如果您在使用 ACK Serverless集群 时出现故障,可根据以下故障分类匹配故障场景解决方案,帮助您快速排查问题,提升运维效率。分类 相关文档 集群资源集群组件异常问题排查 集群检查项及修复方案(包括升级集群、迁移集群、安装组件、...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

主备方案介绍

故障自动容错原理:单机宕机和集群宕机测试结果如下。以下是单机宕机吞吐对比图单机宕机平均响应对比图。以下是集群宕机吞吐对比图集群宕机平均响应对比图。主备容灾原理介绍 当云数据库HBase实例因不可预料的原因(例如设备故障、机房...

操作指南概述

阿里云媒体处理MPS(ApsaraVideo Media Processing,原MTS)以经济、弹性高可扩展的转换方法,将多媒体数据转码成适合在全平台播放的格式,并基于海量数据对媒体的内容进行多模态分析,实现智能审核、智能生产、版权保护等功能。...

响应云盒维修事件

运行中的ECS实例出现故障风险时,会向您发送ECS故障 事件(Reboot事件)通知,收到ECS故障事件通知后,您可以响应故障事件并按照建议进行处理,例如:将现有业务迁移到冗余资源保证业务正常运行,将出现故障风险的ECS实例作为备(备仍...

ModifyInstanceMaintenanceAttributes-修改实例的维护...

维护动作:您指定的实例宕机处理策略。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 ...

AI助手使用说明

当发生故障或异常时,通过AI助手底层的告警系统可以自动PAI进行交互,上报故障信息,并根据故障触发阶段并行策略选择规避故障方法,对故障机自动进行隔离,并从Checkpoint快速恢复任务。AI助手提供的具体功能如下:异常采集上报:...

DeviceSwitched

DeviceSwitched事件提示您网关设备主备进行了切换。告警信息 事件名称 事件级别 状态码 状态描述 DeviceSwitched CRITICAL switched Device Role ...处理方法 无需处理。icmsDocProps={'productMethod':'created','language':'zh-CN',};

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

ping不通云服务ECS(SAG-1000)

本文介绍SAG-1000设备无法ping通ECS实例的原因和处理方法。问题现象 终端无法连接到阿里云,例如ping不通同CEN的ECS。可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入...

通过异步复制功能实现容灾恢复

背景信息 通过异步复制功能实现容灾恢复时,您需要注意:异步复制功能支持故障切换反向复制功能,当您异步复制关系中的主盘出现故障时,可以通过故障切换功能开启从盘的读写权限,然后将从盘挂载到临时创建的ECS实例上继续运行业务。...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动PAI进行交互,并上报故障信息,并根据故障触发阶段并行策略选择规避故障方法,自动隔离故障节点,并通过checkpoint快速...

使用限制

宕机迁移 当宕机的ECS实例数量大于云盒内对应实例规格可供创建的ECS实例数量时,不支持宕机迁移。弹性伸缩 仅支持在云盒内进行弹性伸缩。跨规格族变配 云盒内计算SKU包含的规格族是固定的,不支持将云盒内ECS实例的规格变更为除购买规格族...

ECS实例宕机并产生“VFS:Unable to mount root fs on ...

如果您的ECS实例在启动过程中循环宕机,且产生了 VFS:Unable to mount root fs on unknown-block 日志信息,则可以参考本文提供的方案解决问题。问题现象 ECS实例在启动过程中出现循环宕机,无法正常进入系统,且产生类似于如下所示的调用...

通过一致性复制组实现容灾恢复

背景信息 一致性复制组支持故障切换反向复制功能,当生产站点中的云盘出现严重故障时,您可以通过故障切换功能开启容灾站点中云盘数据的读写权限,然后将容灾站点中的云盘挂载到临时创建的ECS实例上继续运行业务。当生产站点中的云盘故障...

高可用性与容灾

此时如果主节点宕机,副本可能丢失已提交的数据,也就是常说的副本不一致。为了保证副本间的强一致性,现代数据库往往采用以Paxos为代表的多数派复制协议。Paxos通常要求集群中至少存在3个节点,每次写入都要获得超过半数节点的确认,即便...

DeviceLinkDown

告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换设备故障。用户侧交换配置故障。用户侧交换机和设备的连线问题。处理方法 检查用户侧交换。...

更新故障详情

P1 故障等级 relatedServiceId Long Body 否 123 关联服务 progressSummary String Body 否 进展摘要xxxx 进展摘要 preliminaryReason String Body 否 原因是服务宕机 初步原因 mainHandlerId Long Body 否 678 主要处理人 feedback String...

备份灾难恢复

阿里金融云可以支持同城双活/灾备、两地三中心等架构方式。1.同城双活 同城双活、灾备是阿里金融云的...故障切换回切:DNS将生产IP从原生产中心修改到灾备中心,实现跨Region的故障切换服务恢复机制,主站发生故障时,由备站继续提供服务。

功能特性

提供故障诊断运维监控,便于现场解决问题。与云端交付平台联动 线上集成、验证、出包,一步到位。柔性版本管理、故障回流差异。中间件统一供应 提供足够丰富的中间件(包括数据库),帮助产品加速实现完全容器化。对接入的中间件进行可运...

服务等级目标SLO概述

阿里云 服务网格 ASM提供了开箱即用的基于服务等级目标SLO(Service Level Objectives)的监控告警能力,能够监控应用服务之间调用的延迟错误率特征等。本文介绍SLO的相关概念。SLO是什么?服务等级指标SLI(Service Level Indicator)...

服务等级目标SLO概述

阿里云 服务网格 ASM提供了开箱即用的基于服务等级目标SLO(Service Level Objectives)的监控告警能力,能够监控应用服务之间调用的延迟错误率特征等。本文介绍SLO的相关概念。SLO是什么?服务等级指标SLI(Service Level Indicator)...

DeviceWanLinkSwitched

告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkSwitched WARN up Device Wan Link Switched 可能原因 WAN链路原有链路发生了故障,切换到备用链路。处理方法 提醒用户WAN链路发生了切换,用户查看原有WAN链路并决定是否主动切...

什么是云拨测

云拨测(Synthetics Monitor)通过部署在全球各地的监测点,模拟真实用户从全球不同地区不同网络条件访问在线服务,持续对网络质量、网站性能、文件传输等场景进行可用性监测性能监测。您可以通过可视化大盘查看监测数据,并对数据进行多...

ECS实例宕机并产生“Objects remaining in kmalloc”...

如果您在ECS实例内使用memory cgroup kmem功能时内核存在 Objects remaining in kmalloc 告警日志,且实例出现宕机,则可以参考本文提供的方案解决问题。问题现象 当您在ECS实例内使用memory cgroup kmem功能时,内核有类似于如下所示的告...

无法连接到同一个云连接网内的本地客户端

本文介绍SAG-1000设备无法连接到同一个云连接网内的本地客户端的原因和处理方法。问题现象 SAG-1000设备无法连接到同一个云连接网内的其他本地客户端。可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标PC环境的网络故障。...

ECS实例宕机并产生“RIP:get_target_pstate_use_...

如果您的ECS实例在启动过程中宕机,且产生了 RIP:get_target_pstate_use_performance 日志,则可以参考本文提供的方案解决问题。问题现象 您在启动ECS实例的过程中,实例出现宕机,并且有类似于如下所示的调用栈:[1.076899]divide error:...

开启热备前后性能对比

从视频中实验结果可知,在故障容灾failover场景(如主节点宕机)下,热备RO可以实现连接事务不中断,且不出现中断报错。免费体验 阿里云提供了数据库解决方案功能体验馆。您无需购买任何资源,即可在线体验 PolarDB MySQL版 热备无感秒切...

如何排查EMR Kafka服务异常

本文介绍如何排查EMR Kafka服务异常常见的异常处理方法。排查异常 说明 本文以Kafka Broker服务为例说明。登录EMR on ECS控制台,确认服务状态。说明 当组件状态不是 运行中 或者健康状态不是 良好,则说明组件存在异常。查看服务日志。...

DeviceHacked

DeviceHacked事件提示您网关设备遭受攻击。告警信息 事件名称 事件级别 状态码 状态描述 DeviceHacked CRITICAL hacked Device ...处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'productMethod':'created','language':'zh-CN',};

概述

基于阿里巴巴的历史经验,有一半以上的重大故障皆为变更触发,因此,变更过程的风险防御显得尤为重要,会直接关乎业务的稳定性。变更系统是指承载任何对线上生产环境变更操作的系统或工具。例如拥有控制台的白屏化系统/工具、压测/演练平台...

业务连续性

最佳实践 多实例容灾 为了确保高可用,应用必须能处理高负载、避免单节点故障造成业务中断。这些可以通过 边缘负载均衡 ELB 来实现。为此,您可以先在多个 ENS 实例上部署应用,然后结合ELB来实现流量负载均衡。这样即使某个 ENS 实例出现...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
媒体处理 数据库自治服务 对象存储 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用