实例容灾

将实例A作为主实例,实例B作为容灾实例,当实例A所在地域发生突发性故障(例如自然灾害)时,实例B可以作为主实例。通过修改应用程序中的数据库连接配置,将应用请求转到实例B上,实现跨地域的数据容灾。说明 建议您在实例B上部署与实例A上...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

设计方案

风险预测:风险预测是指在发生故障前,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。在故障应急响应中,风险预测可以作为重要参考,帮助快速识别问题的根本原因,提高故障处理效率和精度。故障响应 在发现故障...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

查看事件与监控信息

故障列表 故障列表显示当前应用分组正在报警的全部资源,如果正在报警的规则被禁用,则故障列表中不再显示被禁用规则的故障信息。可用监控 查看服务实例可用的监控信息。组进程监控 查看组进行监控的进程ID、动态规则匹配和状态等信息...

跨地域灾备

同时MaxCompute统一元数据能力支持元数据跨地域高可用,则当主集群地域发生故障且无法恢复时,通过修改项目归属地域的元数据,将项目快速切换到备份集群地域,实现业务的无缝恢复,示意图如下所示。重要 目前跨地域灾备功能处于邀测阶段,...

集群高可用架构推荐配置

高可用(High Availability,HA)是指系统的设计能够确保服务可靠和持续的一种特性。容器服务 Kubernetes 版 基于Kubernetes架构提供了多种集群高可用保障机制,以确保集群控制面、节点与节点池、工作负载、负载均衡等维度的高可用,...

ECS系统事件概述

说明 非预期运维事件一般指的是因底层宿主机发生了无法预测故障,或者ECS实例的操作系统发生了内核错误等问题,导致ECS实例突然出现宕机或重启。因宿主机故障导致ECS实例宕机或重启事件(SystemFailure.Reboot)属于偶发现象,无法避免。...

AccessGatewayFailover

AccessGatewayFailover事件提示您智能接入网关设备主IPsec链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。...

DeviceWanLinkDown

DeviceWanLinkDown事件提示您设备WAN链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'...

性能优化与诊断简介

在RDS MySQL日常运维中,您可以通过数据库自治服务DAS(Database Autonomy Service)来处理数据库故障、优化性能、提升效率、降低运维成本。DAS是一种基于机器学习和专家经验的云服务,实现数据库自感知、自修复、自优化、自运维和自安全,...

用户窃电识别

例如通过采集电量异常、负荷异常、终端报警、主站报警及线损异常等信息监测窃漏电情况及计量装置故障,或根据报警事件发生前后客户计量点电流、电压及负荷数据情况,构建基于指标加权的用电异常分析模型,从而检查用户是否窃电或计量装置...

部署AHPA

AHPA可以根据历史数据进行学习和分析,提前预测未来的资源需求,并据此动态调整Pod副本数量,确保在业务高峰到来之前完成资源的扩容和预热操作,从而提高系统的响应速度和稳定。同时,当预测到业务低谷时,也会适时缩容以节省资源成本。...

部署AHPA

AHPA可以根据历史数据进行学习和分析,提前预测未来的资源需求,并据此动态调整Pod副本数量,确保在业务高峰到来之前完成资源的扩容和预热操作,从而提高系统的响应速度和稳定。同时,当预测到业务低谷时,也会适时缩容以节省资源成本。...

标准版-单副本

当数据库节点发生故障时,数据会丢失,系统会重新拉起一个Redis进程(没有数据),当节点故障业务自动切换完成后,应用程序需要将数据重新预热。单副本架构不支持以下功能:自动或手动备份、离线全量Key分析 和 实例回收站。若您对数据有...

AIOps 解决方案专家服务内容说明

依托阿里巴巴多年AI能力沉淀,以及阿里云专家经验,通过算法对监控指标进行建模与实时智能分析,当业务异常发生时,实时进行告警关联分析与收敛,帮助用户减少故障影响时间(MTTR),提高用户业务稳定。它融合“人工智能+大数据+云计算”...

用云成本需求分析

捕获成本需求 企业级客户主要从以下几个方面获取用云成本需求:业务地域 合规 安全 业务连续和稳定 技术团队管理 自动化和标准化 成本优化目标 分析成本需求 业务地域 选择云地域,在全球跨国企业的客户上云过程中,选择一个...

API概览

DisableAlarm 停用一个报警任务 针对具有突发或时间上不易预测的业务,您可以通过报警任务关联云监控指标管理业务变化。弹性伸缩在统计值满足报警条件时触发报警,并在生效周期内自动执行伸缩规则,动态调整伸缩组内的ECS实例或ECI实例...

历史功能发布记录(2022年)

全部 ACK发布Kubernetes 1.24版本说明 AHPA弹性预测支持基于GPU指标的预测 AHPA(Advanced Horizontal Pod Autoscaler)支持在应用具备周期的情况下,通过弹性预测,进行资源预热,解决您在服务使用中遇到的弹性滞后问题。现已支持基于...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

概览

产品优势 智能阈值与单指标或多指标报警规则相比,优势如下:报警降噪 智能阈值会采集每个实例的指标数据,利用鲁棒时序分解和预测等模型适配,适应不同实例指标的数据水位和业务变化,并基于历史报警聚类和相似度匹配,进一步过滤异常...

标准架构

主节点提供日常服务访问,从节点提供HA高可用,当主节点发生故障,系统会自动在30秒内切换至从节点,保证业务平稳运行。标准架构高可用类型的特点如下:可靠 服务可靠 采用双机主从(master-replica)架构,主从节点位于不同物理机。主...

DAS Auto Scaling弹性能力

基于预测和机器学习的时序异常检测算法,目前的时序异常检测算法可提供周期检测、转折点判定和连续异常区间识别等功能,目前对线上70w+的数据库实例进行1天后数据预测,误差小于5%的实例占比稳定在99%以上,并且预测14天之后的误差小于5%...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

专属解决方案

而预实分析则是在事前、事中和事后预算和实际发生对比分析的基础上增加了预测视角。此外,将云的预算管理纳入进来之后,企业的全面预算才算是补齐了最后一块短板,全面预算才有了切实的管理意义。从我们的实践来看,数字化云上预算管理的...

基于预测自动弹性伸缩

数据库自治服务DAS(Database Autonomy Service)为 Redis提 供基于预测自动弹性伸缩策略,以实例过去10天的历史数据,预测实例未来24小时性能指标的使用值。当预测指标值大于等于设定的目标值时,给出扩容建议。本文介绍如何创建基于预测...

基于预测自动弹性伸缩

为了应对业务增长和数据库高负载所带来的性能挑战,数据库自治服务DAS提供基于预测的自动弹性伸缩策略,通过实例过去10天的历史数据预测未来24小时的性能指标,并在预测的性能指标达到阈值时主动提供扩容建议。前提条件 支持如下数据库引擎...

链路状态

发生故障时,及时进行切换。操作步骤 登录 智能接入网关控制台。在 智能接入网关 页面,单击目标实例ID。在智能接入网关实例详情页面,单击 高可用配置,可查看链路状态。绿灯:表示链路正常。红灯:表示链路故障。icmsDocProps={'...

基于预测自动弹性伸缩

为了应对业务增长和数据库高负载所带来的性能挑战,数据库自治服务DAS提供基于预测的自动弹性伸缩策略,通过实例过去10天的历史数据预测未来24小时的性能指标,并在预测的性能指标达到阈值时主动提供扩容建议。前提条件 实例为如下版本:...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

产品简介

阿里云健康看板(英文名:Alibaba Cloud Health Status,简称Status)是阿里云提供的一项关键功能,它集中展示了阿里云的云产品在全球各区域的运行状态和可用性信息,这个健康看板旨在帮助用户实时了解云产品服务是否存在中断、故障或性能...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠和可扩展,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错。但随着服务拆分,更多组件的引入,分布式系统的复杂...

备份和灾难恢复

阿里金融云可以支持同城双活/灾备、两地三中心等架构方式。1.同城双活 同城双活、灾备是阿里金融云的...故障切换回切:DNS将生产IP从原生产中心修改到灾备中心,实现跨Region的故障切换和服务恢复机制,主站发生故障时,由备站继续提供服务。

故障演练

但这些措施在故障发生时的有效故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

同城容灾架构概述

非机房级故障(某个机房的单产品故障,例如其中一个机房的ECS服务器损坏),可以通过对单产品的灾备设计来保障发生故障时系统及时切换。应用设计相关参考标准 应用设计相关参考标准如下:无状态化。分布式集群设计、避免单点逻辑出现。幂等...

通过一致复制组实现容灾恢复

背景信息 一致复制组支持故障切换和反向复制功能,当生产站点中的云盘出现严重故障时,您可以通过故障切换功能开启容灾站点中云盘数据的读写权限,然后将容灾站点中的云盘挂载到临时创建的ECS实例上继续运行业务。当生产站点中的云盘故障...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全和可用的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整、可恢复和可用不受到严重影响,以保障业务的持续运行和数据的...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
弹性公网IP 云服务器 ECS 轻量应用服务器 负载均衡 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用