Linux系统的ECS实例运行卡顿,在/var/log/messages...

问题原因 在Linux系统的ECS实例中,当某个进程因为某种原因无法继续执行,并且长时间停滞在某个状态下无法响应,就会发生挂起任务(hung task)故障,出现hung task故障可能原因如下:进程卡住(blocked):当某个进程在执行过程中出现死锁...

JVM注入动态脚本

向指定的Java方法注入一段动态代码,您可通过代码方式实施任意故障场景,例如篡改方法入参、篡改方法返回值等。参数说明如下:参数名称 是否必选 默认值 参数说明 脚本类型 否 Java 动态脚本的语言类型,可选项:Java、Groovy。脚本名称 否...

采集客户端数据的高可用方案

但是在一些相对极端的场景下,单集群可能由于一些预期外原因存在故障停服风险。针对该单集群故障风险,日志服务提供两种异地多活的客户端数据采集方案。方案比较 对比项 方案1:双写 方案2:数据加工复制+写入切换 部署复杂度 低 需要额外...

常见问题

运维管理 容器应用服务常见问题 经典应用服务常见问题 中间件 SOFABoot 常见问题 微服务常见问题 微服务故障排查之 DRM 微服务故障排查之流 微服务故障排查之 RPC 服务网格-故障排查 消息队列常见问题 任务调度常见问题 分布式链路跟踪...

功能概览

支持的灾场景 灾场景 支持类型 故障切换 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步完成后再启动切换。这样可以保证灾端与生产端数据完全一致,...

步骤七:故障切换

立即切换 该故障恢复会尝试停止保护组中被保护的实例,不会等待所有被保护的实例停止,也不会进行最后一轮数据同步,立即启动切换,会导致数据有部分丢失,主要用在故障容灾的场景。数据同步后切换 正向保护-故障切换 请参考以下步骤进行...

步骤七:故障切换

立即切换 该故障恢复会尝试停止保护组中被保护的实例,不会等待所有被保护的实例停止,也不会进行最后一轮数据同步,立即启动切换,会导致数据有部分丢失,主要用在故障容灾的场景。数据同步后切换 正向保护-故障切换 请参考以下步骤进行...

流水单据型业务场景多活实践

复现故障 改造完成灾架构后,还需验证灾能力是否符合预期,接下来将历史故障进行复现,通过制造真实的故障来验证灾恢复能力。演练准备。登录 AHAS控制台。在控制台左侧导航栏选择 多活灾。在左侧导航栏选择 监控大盘,在顶部菜单栏...

读多写少型业务场景多活实践

多活灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活灾解决方案(AHAS-MSHA)帮助业务实现多活灾...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活灾解决方案,您...

使用限制

请在故障切换后参考 配置辅助弹性网卡 检查和配置灾端网卡,确保网络正常工作。多网卡存在限制如下:ECS实例在绑定辅助弹性网卡后,部分镜像无法自动识别辅助弹性网卡的IP地址并添加路由,导致无法正常使用辅助弹性网卡。若ECS实例配置了...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止灾复制、故障切换、灾演练等一系列的应用灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

通过CADT实现ALB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

产品优势

多活灾产品MSHA提供从流量接入到应用和数据库的故障切换能力,快速构建云上同城及跨地域的多活灾架构,提升客户业务的连续性。与自建灾架构对比,产品具备以下多种优势。大规模实践沉淀 多活灾MSHA商业化上线于2019年,产品技术与...

通过CADT实现NLB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

故障演练

故障演练的意义 故障演练将被灾保护的服务器在云上拉起并验证应用正确性,是灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被灾保护的应用可以在灾站点正常拉起。确保操作人员熟悉灾恢复流程,确保在生成站点真正...

故障演练

故障演练的意义 故障演练将被灾保护的服务器在云上拉起并验证应用正确性,是灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被灾保护的应用可以在灾站点正常拉起。确保操作人员熟悉灾恢复流程,确保在生成站点真正...

概述

TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、灾、混沌工程、资金安全、压测等运维问题的平台产品。高可用管理平台 高可用管理平台(High ...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行灾恢复。本文主要介绍如何通过一致性复制组进行灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...

PTS压测快速入门

阿里云提供的业务高可用架构体系,为企业提供营销活动、成本控制(压测、容量规划、流量控制)、应急(开关)、灾逃逸(架构感知、故障演练、异地多活)的解决方案。其中PTS压测作为容量规划阶段重要的环节,可模拟海量用户的真实业务...

什么是OceanBase

OceanBase是由蚂蚁集团、阿里巴巴完全自主研发的分布式关系型数据库,始创于2010年。OceanBase具有数据强一致、高可用、高性能、在线扩展、高度兼容SQL标准和主流关系型数据库...通过“三地五中心”部署实现城市级故障自动无损灾。产品介绍

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

产品体系

高阶运维 TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、灾、混沌工程、资金安全、压测等运维问题的平台产品。研发效能 源于蚂蚁集团在...

某全球领先媒介投资管理公司迁移Bigtable到Lindorm

解决方案 云原生多模数据库 Lindorm 跨可用区高可用灾能力,提供机房级别故障强一致灾(RTO 60s,RPO=0)以及最终一致灾能力(RTO,RPO),保障用户业务持续在线。主要使用场景如下:99.99%以上SLA场景。机房级灾,RTO小于1分钟。...

捷顺

本文介绍数据库自治服务DAS助力...客户感言“阿里云DAS服务帮助捷顺科技对数十个数据库实例进行异常监测、自动流、自动优化、自动弹性扩缩,大幅降低了数据库运维成本和故障时间,大幅提高了系统的可用性。——捷顺科技总工&运维负责人。

智能压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

流量回放和压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行灾恢复。本文主要介绍如何进行灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

步骤七:故障切换

反向保护-故障恢复 生产站点故障恢复后,您需要将灾站点数据恢复到生产站点,完成故障恢复。在保护组状态为 反向复制中 并且 实际RPO 符合预期的情况下,您就可以进行故障恢复操作。请参考以下步骤进行反向保护故障恢复操作。登录 云备份...

跨可用区容灾(Beta)

跨可用区(AZ)灾,即在同Region不同可用区部署同构的Hologres灾实例,如果生产实例所处的地理位置发生自然灾害,或者实例内部出现了故障导致生产实例无法正常对外提供读写服务,那么灾实例可以切换为生产实例,从而保障业务连续性。...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

设备显示离线

可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的运营商网络正常。如果不正常,请处理运营商网络问题。如果正常,请跳转至 步骤2。请检查设备本身是否上电。电源状态...

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务MSE。多活灾 多活灾MSHA(Multi-...

使用限制

历史故障 公测期间暂无存储限制。通知订阅 通知订阅 每个租户最大可以配置50个通知订阅规则。服务 服务 每个租户最大可以配置100个服务。权限使用限制 功能 模块 限制规则 人员管理 人员 仅阿里云主账号可以新增、删除、修改并查看所有人员...

概述

再者云计算平台会提供冗余存储和备份能力,避免系统因为硬件故障或其他原因导致的停机或数据丢失。这种备份机制可以提高系统的可靠性。责任共担模型 阿里云平台提供高可用的基础设施,并提供应用稳定性相关工具体系。用户可以基于阿里云...

步骤七:故障切换

反向保护-故障恢复 生产站点故障恢复后,您需要将灾站点数据恢复到生产站点,完成故障恢复。在保护组状态为 反向复制中 并且 实际RPO 符合预期的情况下,您就可以进行故障恢复操作。请参考以下步骤进行反向保护故障恢复操作。登录 混合...

产品功能

分布式架构,单节点故障业务不受影响 云数据库Memcache版采用分布式集群架构,每个节点均由双机热备架构组成,具备自动灾及故障迁移能力。多种规格可适配不同的业务压力,数据库性能支持无限扩展。支持数据持久化及备份恢复策略,有效的...

应用场景

场景四:异地灾 由于地区断电、断网等客观原因,产品可用性并不能达到 100%。当出现这些故障时,如果用户业务部署在单个地区,那么就会因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库Cassandra版 云数据库 OceanBase 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用