故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

通过CADT实现ALB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

产品优势

多活灾产品MSHA提供从流量接入到应用和数据库的故障切换能力,快速构建云上同城及跨地域的多活灾架构,提升客户业务的连续性。与自建灾架构对比,产品具备以下多种优势。大规模实践沉淀 多活灾MSHA商业化上线于2019年,产品技术与...

通过CADT实现NLB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

概述

TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、灾、混沌工程、资金安全、压测等运维问题的平台产品。高可用管理平台 高可用管理平台(High ...

故障演练

故障演练的意义 故障演练将被灾保护的服务器在云上拉起并验证应用正确性,是灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被灾保护的应用可以在灾站点正常拉起。确保操作人员熟悉灾恢复流程,确保在生成站点真正...

故障演练

故障演练的意义 故障演练将被灾保护的服务器在云上拉起并验证应用正确性,是灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被灾保护的应用可以在灾站点正常拉起。确保操作人员熟悉灾恢复流程,确保在生成站点真正...

PTS压测快速入门

阿里云提供的业务高可用架构体系,为企业提供营销活动、成本控制(压测、容量规划、流量控制)、应急(开关)、灾逃逸(架构感知、故障演练、异地多活)的解决方案。其中PTS压测作为容量规划阶段重要的环节,可模拟海量用户的真实业务...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行灾恢复。本文主要介绍如何通过一致性复制组进行灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...

什么是OceanBase

OceanBase是由蚂蚁集团、阿里巴巴完全自主研发的分布式关系型数据库,始创于2010年。OceanBase具有数据强一致、高可用、高性能、在线扩展、高度兼容SQL标准和主流关系型数据库...通过“三地五中心”部署实现城市级故障自动无损灾。产品介绍

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

产品体系

高阶运维 TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、灾、混沌工程、资金安全、压测等运维问题的平台产品。研发效能 源于蚂蚁集团在...

某全球领先媒介投资管理公司迁移Bigtable到Lindorm

解决方案 云原生多模数据库 Lindorm 跨可用区高可用灾能力,提供机房级别故障强一致灾(RTO 60s,RPO=0)以及最终一致灾能力(RTO,RPO),保障用户业务持续在线。主要使用场景如下:99.99%以上SLA场景。机房级灾,RTO小于1分钟。...

捷顺

本文介绍数据库自治服务DAS助力...客户感言“阿里云DAS服务帮助捷顺科技对数十个数据库实例进行异常监测、自动流、自动优化、自动弹性扩缩,大幅降低了数据库运维成本和故障时间,大幅提高了系统的可用性。——捷顺科技总工&运维负责人。

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行灾恢复。本文主要介绍如何进行灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

HDFS Web UI介绍

本文为您介绍如何访问HDFS Web界面,包括获取NameNode服务地址、浏览NameNode UI首页,并提供有关启动NameNode UI的相关说明。访问HDFS Web UI 您可以...相关文档 如果在使用HDFS过程中遇到任何问题或故障,详情请参见 常见问题和故障诊断。

跨可用区容灾(Beta)

跨可用区(AZ)灾,即在同Region不同可用区部署同构的Hologres灾实例,如果生产实例所处的地理位置发生自然灾害,或者实例内部出现了故障导致生产实例无法正常对外提供读写服务,那么灾实例可以切换为生产实例,从而保障业务连续性。...

使用限制

历史故障 公测期间暂无存储限制。通知订阅 通知订阅 每个租户最大可以配置50个通知订阅规则。服务 服务 每个租户最大可以配置100个服务。权限使用限制 功能 模块 限制规则 人员管理 人员 仅阿里云主账号可以新增、删除、修改并查看所有人员...

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务MSE。多活灾 多活灾MSHA(Multi-...

同城容灾演练产品概述

灾演练示意图 同城容灾架构评估项 评估项 要求 SLB 多可用区SLB实例。应用层 ECS多可用区部署,相关应用多可用区部署。数据库 以RDS为例,实例为多可用区部署。缓存 以Redis为例,实例为多可用区部署。应用设计 应用设计的参考标准如下:...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

产品功能

分布式架构,单节点故障业务不受影响 云数据库Memcache版采用分布式集群架构,每个节点均由双机热备架构组成,具备自动灾及故障迁移能力。多种规格可适配不同的业务压力,数据库性能支持无限扩展。支持数据持久化及备份恢复策略,有效的...

扩缩容节点池

容器服务ACK通过调整节点池的期望节点数实现节点池扩缩,将节点数目维持在期望数量。扩节点池保证节点数量足够支撑业务运行,缩节省成本。扩缩节点池均可自动化执行,提升了运维效率。本文介绍如何扩缩节点池。前提条件 已创建...

ack-node-repairer

背景信息 节点自愈系统默认集成了常见的节点故障以及对应的节点修复操作。当节点出现故障时,自愈系统会自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD会修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要...

云盘异步复制概述

启动云盘异步复制功能 通过异步复制功能实现灾恢复 您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行灾恢复。通过异步复制功能实现灾恢复 删除云盘异步复制关系 创建...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

架构信息查询导航

集群架构 集群架构高可用:采用分布式架构,每个数据分片都支持主从(master-replica)高可用,能够自动进行灾切换和故障迁移。集群架构单副本:每个分片服务器采用单副本模式,无高可用功能,适用于纯缓存类常见或者QPS压力较大的业务...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

什么是数据库备份DBS

常见问题和故障处理 使用DBS时遇到的各类问题,例如需要修改备份源数据库、数据库恢复失败、如何备份RDS只读实例等,您可以在 常见问题 或 常见报错 内查找,可以解决您的绝大部分问题。说明 若在文档中未找到您遇到的异常或报错,或按照...

设置存储空间自动扩

例如,如果您当前存储总空间为100 GB,其15%为15 GB,大于5 GB,那么达到阈值触发扩时将在原来存储空间的基础上扩15 GB,扩成功后的总空间为115 GB 存储自动扩展上限 扩后 实例总存储空间 的上限。需要大于等于实例当前存储空间总...

专家成长计划技术培训课程

现场面授(特殊情况可调整为线上钉钉群直播)云上存储运维工程师专家培训(专项)1天 30人 本课程将全面介绍块存储、OSS、日志服务三大产品的常见问题的定位、排查和处理,使学习者深入故障处理和排查能力。本课程包含一定的实验动手操作,...

自治中心

说明 例如在可流时间段(默认可流时间段为00:00~23:59)内,自定义触发条件为当CPU使用率大于70%,同时活跃会话数大于16,且该现象持续时间超过2分钟时触发自动流,同时自动开始跟踪,如果发现故障未消除,则自动回滚该流操作。...

新手指引

模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS灾服务支持业务的跨可用区(Availability Zone)的灾能力,对整体的应用做灾备份来应对单地区的故障,满足业务的...

混合云应用双活容灾最佳实践

通过MSHA多活灾助力企业进行混合云应用双活灾建设的实践案例,给出了灾架构建设实践方法,同时利用Chaos故障演练产品注入真实故障,来验证故障场景业务灾能力是否符合预期。若您在使用过程中有任何疑问,欢迎您搜索钉钉群号...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库Cassandra版 云数据库 OceanBase 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用