自治中心

说明 例如在可流时间段(默认可流时间段为00:00~23:59)内,自定义触发条件为当CPU使用率大于70%,同时活跃会话数大于16,且该现象持续时间超过2分钟时触发自动流,同时自动开始跟踪,如果发现故障未消除,则自动回滚该流操作。...

实例伸缩限制及规则

您可以根据按量模式和预留模式的实例总数及对应的实例扩速度的限制信息配置弹性伸缩规则。在预留模式下,您可以通过定时伸缩和水位伸缩两种方式解决预留实例利用不充分的问题。实例伸缩行为 在处理函数调用请求时,函数计算 会优先使用已...

弹性管理(含预留模式)

扩缩计算原理:缩时会通过缩系数来实现相对保守的缩过程,缩系数取值范围为(0,1]。缩系数为系统参数,用于减缓缩速度,防止缩过快,您无需设置。扩缩目标值对计算结果向上取整得到最终结果,计算逻辑如下。扩目标值=...

概述

TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、灾、混沌工程、资金安全、压测等运维问题的平台产品。高可用管理平台 高可用管理平台(High ...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止灾复制、故障切换、灾演练等一系列的应用灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活灾解决方案,您...

通过CADT实现NLB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

产品优势

多活灾产品MSHA提供从流量接入到应用和数据库的故障切换能力,快速构建云上同城及跨地域的多活灾架构,提升客户业务的连续性。与自建灾架构对比,产品具备以下多种优势。大规模实践沉淀 多活灾MSHA商业化上线于2019年,产品技术与...

什么是多活容灾

多活灾MSHA(Multi-Site High Availability)是在阿里巴巴电商业务环境演进出来的多活灾商业化产品,是应用高可用服务AHAS的核心模块,为客户提供灾架构建设能力。横向支持灾架构的上线、运维、演练、切流,升级到下线。纵向支持...

PTS压测快速入门

阿里云提供的业务高可用架构体系,为企业提供营销活动、成本控制(压测、容量规划、流量控制)、应急(开关)、灾逃逸(架构感知、故障演练、异地多活)的解决方案。其中PTS压测作为容量规划阶段重要的环节,可模拟海量用户的真实业务...

故障演练

故障演练的意义 故障演练将被灾保护的服务器在云上拉起并验证应用正确性,是灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被灾保护的应用可以在灾站点正常拉起。确保操作人员熟悉灾恢复流程,确保在生成站点真正...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行灾恢复。本文主要介绍如何通过一致性复制组进行灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...

故障演练

故障演练的意义 故障演练将被灾保护的服务器在云上拉起并验证应用正确性,是灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被灾保护的应用可以在灾站点正常拉起。确保操作人员熟悉灾恢复流程,确保在生成站点真正...

混合云应用双活容灾最佳实践

通过MSHA多活灾助力企业进行混合云应用双活灾建设的实践案例,给出了灾架构建设实践方法,同时利用Chaos故障演练产品注入真实故障,来验证故障场景业务灾能力是否符合预期。若您在使用过程中有任何疑问,欢迎您搜索钉钉群号...

虚拟机场景

一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过流、快速扩等手段保证业务连续性。参数说明如下:参数名称 是否必选 默认值 参数说明 进程ID 必选其一 无 Java进程的ID。进程关键字 无 用于识别唯一的关键字,可以...

什么是OceanBase

OceanBase是由蚂蚁集团、阿里巴巴完全自主研发的分布式关系型数据库,始创于2010年。OceanBase具有数据强一致、高可用、高性能、在线扩展、高度兼容SQL标准和主流关系型数据库...通过“三地五中心”部署实现城市级故障自动无损灾。产品介绍

阿里云上稳定性保障服务(容灾)内容说明

1.服务概述 1.1 服务说明 帮助客户在云上建立灾能力,当灾难发生时,在保证生产环境的数据尽量少丢失的情况下,保证生产系统的业务不间断运行,促进故障逃逸能力的提升。1.2 适用的客户场景 云上灾服务适用于客户同一个地域(Region)...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

产品体系

高阶运维 TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、灾、混沌工程、资金安全、压测等运维问题的平台产品。研发效能 源于蚂蚁集团在...

某全球领先媒介投资管理公司迁移Bigtable到Lindorm

解决方案 云原生多模数据库 Lindorm 跨可用区高可用灾能力,提供机房级别故障强一致灾(RTO 60s,RPO=0)以及最终一致灾能力(RTO,RPO),保障用户业务持续在线。主要使用场景如下:99.99%以上SLA场景。机房级灾,RTO小于1分钟。...

云数据库Redis版产品选型必读

选择容灾方案 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。选择大版本 推荐使用更新的大版本...

集群管理常见问题

仅支持数据盘扩,不支持数据盘缩,不支持系统盘扩或缩。您可以在目标集群的 节点管理 页签,单击目标节点组的 磁盘扩,对数据盘进行扩。具体操作,请参见 扩磁盘。是否支持集群的扩缩?支持,但需注意以下信息:扩:仅...

开源对比

云消息队列 RabbitMQ 版 是一款基于高可用分布式存储架构实现的AMQP 0-9-1协议的消息产品,能够兼容开源RabbitMQ客户端,与开源RabbitMQ相比,能够解决各种稳定性痛点(例如消息堆积、脑裂等问题),同时具备高并发、分布式、灵活扩缩等...

流程概览

您可以在控制台上启动灾复制、进行灾演练、故障切换等操作,也可以对所有的灾业务进行监控。回切至本地VMware 利用阿里云连续复制型灾(CDR)服务,在本地虚拟机出现问题后把云上恢复出来的ECS回切至云下VMware环境或本地物理机。...

功能特性

自动SQL优化 智能压测 确认数据库实例规格是否需要扩,并验证在真实业务场景下的实际效果,降低上线后引发故障的风险。此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索...

实例及版本选型

引擎版本 ZooKeeper 3.8.0(兼容3.4.x~3.8.x版本)ZooKeeper 3.8.0(兼容3.4.x~3.8.x版本)高可用 默认多AZ平均部署,提高集群灾能力,故障自动检测及恢复,SLA保障率高达99.95%。支持动态配置,扩缩不重启,降低服务中断时间。单节点...

关键技术竞争力

生产运维智能化:技术风险体系保障业务连续性 TRaaS(Tech Riskdefend as a Service)技术风险防控平台,以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,解决用户上云和分布式改造过程中所面临的可观测、故障应急、灾、混沌工程、...

修改套餐规格

为您介绍修改套餐规格的操作和注意事项,您可通过修改套餐规格实现实例扩缩。背景信息 修改套餐规格当前仅支持标准版(云盘)系列的实例。租户实例目前仅支持扩到 2 核 8GB,最低可缩至 1 核 4GB。套餐规格扩目前支持迁移变配和...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行灾恢复。本文主要介绍如何进行灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

版本说明

本地运维控制台新版首页大盘,完善统计信息,便于更及时发现异常 故障诊断,支持导出离线诊断数据,便于远程运维分析 Harbor组件增加垂直扩缩、水平扩缩能力 节点白屏扩,在节点管理界面可进行添加节点的操作 提供基于备份的还原操作...

ADP底座/本地运维控制台

修复某些场景下访问ACR镜像仓库失败的问题 v1.4.2 新特性 Bug Fix 本地运维控制台新版首页大盘,完善统计信息,便于更及时发现异常 故障诊断,支持导出离线诊断数据,便于远程运维分析 Harbor组件增加垂直扩缩、水平扩缩能力 节点白屏...

设计方案

灾演练 灾演练是通过模拟实例、机房或地域级故障,判断系统服务的逃逸能力,验证系统的灾能力以及面对灾难时的应对能力。灾演练可以帮助企业更好的验证RPO、RTO指标,及时发现和解决相关问题,提高系统的可用性和可靠性。红蓝攻防 ...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

云数据库RDS简介

高可用性:支持主备灾架构、自动故障切换、跨可用区灾,最高可保障 99.99%可用性。备份恢复:提供自动备份,支持异地备份、按时间点恢复等。高安全性:支持网络隔离、静态数据加密、传输数据加密、访问权限控制等多项安全能力。解决运...

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务MSE。多活灾 多活灾MSHA(Multi-...

多活架构介绍

MSHA提供三种灾架构解决方案,包括同城多活、异地双活以及异地应用双活。本文介绍各解决方案的架构特点,并对比各解决方案的建设成本、灾能力和适用场景。架构特点 同城多活 同城机房间的物理距离通常≤50 km,跨机房的网络延迟较小...

微服务治理差异化能力

摘除后动作:弹性扩替换故障机器。详情请参见:使用离群实例摘除保障Spring Cloud应用的可用性 使用离群实例摘除保障Dubbo应用的可用性 服务安全 当您的某个微服务应用有安全要求,不希望其它所有应用都能调用时,可以对调用该应用的其它...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

常见问题旧版索引

故障排查 ACK集群异常 容器服务ACK应用故障排查 如何升级集群?排查故障的经典步骤与常见原因 如何通过查看日志排查故障?产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-...

事件中心事件汇总

Nacos 事件Code 事件名称 事件等级 云监控事件名称 事件说明和影响 事件处理建议 Nacos:TPSRateLimit Nacos客户端TPS流 警告 Nacos:TPSRateLimit:Normal:Nacos集群客户端TPS过高,即将流(监视模式)客户端访问Nacos引擎的TPS过高,为...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云备份 负载均衡 云数据库 OceanBase 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用