设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

趋势分析

通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...

什么是混合云容灾服务

RPO Recovery Point Objective(数据恢复目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

设计方案

从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队软件生产运行的...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能业务连续性形成改进,避免历史同类故障重复发生

开通备份恢复

说明 数据恢复目标(Recovery Point Objective,简称RPO),指应用发生故障时预期的数据丢失量。例如,RPO为15分钟,表示在应用发生故障时,最近15分钟的数据无法在云上恢复。默认全库备份,支持单个表或多个表进行备份恢复。指定时间...

部署高可用及共享存储Web服务

1个公网负载均衡CLB:基于流量按需分发的能力,可以将流量分发到不同的后端服务器,可消除系统中的单故障,当某个服务器发生故障时,CLB会自动将请求分配到其他正常的服务器上,从而保证服务的连续性和稳定性。2个文件存储NAS:实现多...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

读写分离简介

读写分离模块会自动只读实例进行健康检查,当发现某个实例发生宕机或延迟超过阈值时,系统将不再向该实例分配读请求,而是在剩余的健康实例间进行分配,以此确保单个只读实例发生故障时,不会影响应用的正常访问。当实例被修复后,RDS会...

产品架构介绍

多活流量必须经过接入层,以便在故障发生时,通过接入层切换入口流量。比例分流:接入层支持按比例将流量分流到机房。特殊场景下,可以将机房流量切零,从而实现故障情况下的流量切换。精准路由:接入层支持根据HTTP请求Header/Cookie/...

RDS与自建数据库对比优势

备节点的故障发现时长为秒级,在99%的场景下,备节点从故障发生到节点恢复不超过10分钟。在好的架构下才能实现高可靠性。实现RPO=0的成本极高,需要单独购买研发服务。数据可靠性一般,取决于单块磁盘的损害概率。实现RPO=0的成本极高,...

网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

集群高可用架构推荐配置

多可用区的地域:所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。单可用区地域:所有托管组件均严格采用多副本、多节点打散部署策略,确保在单个节点发生故障时,集群...

术语

主地址(Primary Endpoint)主节点的访问,当发生故障切换(Failover)后,系统会将访问自动指向新的主节点。集群地址(Cluster Endpoint)整合集群下的多个节点,对外提供一个统一的读写地址,可以设置为只读或读写。集群地址具有自动...

组复制简介

本文介绍组复制的优势、技术实现原理、AliSQL组复制稳定性的优化。组复制的优势 组复制、半同步复制、异步复制的数据可靠性、数据一致性、全局事务一致性情况如下表所示。特性 组复制 半同步复制 异步复制 数据可靠性★数据一致性 保证主...

术语

主地址(Primary Endpoint)主节点的访问,当发生故障切换(Failover)后,系统会将访问自动指向新的主节点。集群地址(Cluster Endpoint)整合集群下的多个节点,对外提供一个统一的读写地址,可以设置为只读或读写。集群地址具有自动...

解决方案与客户案例

业务连续性保障 异地多活架构下各个数据中心常态承接业务流量,故障发生时只需调拨入口流量即可实现容灾切换,实现分钟级的容灾切换。同时随着参与多活建设的数据中心数量增加,参与调拨流量的比例会相应减少,未参与调拨的业务流量可以...

高性能版实例

即使计算节点发生故障,也可以保证实例无数据丢失。高可用 AnalyticDB PostgreSQL版 高性能版由于减少了一个副本,在高可用方面出现了一些下降,在物理机故障等极端情况下,集群恢复的时间会变长(8小时以内)。高性能版通过ESSD多副本技术...

术语

主地址(Primary Endpoint)主节点的访问,当发生故障切换(Failover)后,系统会将访问自动指向新的主节点。集群地址(Cluster Endpoint)整合集群下的多个节点,对外提供一个统一的读写地址,可以设置为只读或读写。集群地址具有自动...

网络资源

容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使发生网络分区,系统仍然可以继续提供服务。网络闪断故障 指网络连接在短时间内频繁中断和恢复,造成网络连接不稳定的...

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,...

服务条款

2.2.3 在阿里云施行前述调整之时前,您已经开通的 云数据库Memcache版 实例,以调整施行之时为分割,该时间之前发生的费用按旧规则执行,该时间之后发生的费用按新规则执行。2.3 阿里云保留在您欠费或可能欠费的情况下,暂停向您提供...

ECS容灾常见问题

在自建数据中心发生重大故障时,几分钟内在云上拉起,达到分钟级RTO。ECS容灾持续复制型 支持哪些操作系统?CDR支持主流的Windows和Linux操作系统。更多信息,请参见 操作系统。ECS容灾服务目前仅支持以下服务器版本。操作系统 版本 ...

ECS容灾常见问题

在自建数据中心发生重大故障时,几分钟内在云上拉起,达到分钟级RTO。ECS容灾持续复制型 支持哪些操作系统?CDR支持主流的Windows和Linux操作系统。更多信息,请参见 操作系统。ECS容灾服务目前仅支持以下服务器版本。操作系统 版本 ...

附录:SOFAStack 产品目录

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系,吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证,为金融交易技术保证风险安全的同时,...

混沌工程缓存实战系列-Redis

借助混沌工程可以了解到问题发生系统、业务的影响面是否符合预期。梳理演练场景 对于示例应用,可以按照以下思路来梳理演练场景:明确缓存监控的指标。分析影响这些指标可能的因素、故障场景、参数等。因为客户端层面的影响面可控,...

什么是多活容灾

RPO(Recovery Point Objective)即数据恢复目标,以时间为单位,即在灾难发生时,系统和数据必须恢复的时间要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。RTO(Recovery Time Objective)即...

SQL优化技术

本文介绍数据库自治服务DAS(Database Autonomy Service)的SQL优化技术。背景信息 作为数据库管理员或应用开发者,都有过SQL优化经历。数据库上执行的SQL千差万别,且伴随着业务快速迭代、数据分布特征变化、热点变化、数据库版本升级等...

用云成本需求分析

这不光是对于云厂商通过自身技术迭代增加算力减少成本的要求,同时也是企业自身IT系统技术演进的要求。成本优化的目标,也可以是在保持存量业务不变的情况下,减少10%的云资源使用。这些成本管理和优化的目标需求需要被识别,并在计划...

应用场景

库表级恢复 全量数据备份是最普遍的备份解决方案,发生数据误删除时,传统方案需要将整个实例数据全部恢复,然后从中找出误删除表,其他数据都丢弃掉,大部分时间花费在无效工作上,这种方案会大大延长故障恢复时间。为了降低数据库故障...

监控、诊断和故障排除

另外,通过日志的时间戳,不仅可以迅速查找和定位日志范围,还能够了解在请求发生时间范围内,客户端应用、网络或者服务系统发生的其他事件,有利于问题的分析和调查。RequestID OSS服务会为接收的每个请求分配唯一的服务器请求ID,即...

单元化介绍

而且业务量的增长也让系统单机房运行的风险激增,一旦发生机房断电或是其他灾害导致机房故障,就会让整个系统完全瘫痪。机房不能放在一个篮子里,必须让系统在两个或更多 IDC 内运行。多机房部署通常有以下两种模式:垂直模式:将全站应用...

存储资源

存储资源是指用于存储和管理数据的硬件和软件资源,包括节点的本地磁盘、分布式文件存储、数据库和缓存...可以使用自动检测与恢复、依赖降级、故障迁移、多级缓存、配置验证与回滚、读写分离、分库分表、多副本等容错策略分别应对以上风险

阿里云上稳定性保障服务(容量规划)

1.服务概述 1.1 服务说明 云上容量规划服务根据客户的业务需求,使用容量评估帮助客户探测云上系统的最佳压力、极限压力和破坏压力,并进行降级、限流保护,帮助客户达到系统容量和云上资源成本的最佳平衡。1.2 适用的客户场景 云...

性能监控最佳实践

建设一体化性能监控平台 随着互联网技术的不断发展,企业的业务规模和复杂度也在不断增加。为了保证业务的稳定性和可靠性,企业需要其系统进行全面的性能监控。而一体化性能监控就是一种集成了多种监控工具和技术的综合性监控方案,可以...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数字证书管理服务(原SSL证书) 云数据库 MongoDB 版 Web应用防火墙 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用