合理利用存储备份保障业务数据还原

常见的几种场景如下:机器/磁盘故障导致数据丢失 人为误操作导致数据丢失 有状态服务如数据库的升级出现问题,需要进行回滚恢复 解决方案 ADP的本地运维控制台提供了面向业务数据的备份还原能力:以组件下工作负载(通常是statefulset)为...

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务MSE。多活容灾 多活容灾MSHA(Multi-...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

应用故障自动诊断

常见故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

多活架构介绍

分钟级 分钟级 RTO 地域级故障控;机房级故障为分钟~十分钟级。分钟~十分钟级 说明 具体以数据同步延迟的情况为准。分钟~十分钟级 说明 具体以数据同步延迟的情况为准。适用场景 预算有限,不考虑异地容灾。期望建设周期短(≤4周)。...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

变更配置

两种模式均执行配操作。注意事项 配过程中,实例会发生秒级闪断,请尽量在业务低峰期执行配操作,并确保您的应用有自动重连机制。变更实例配置将会引起费用的变化,详细收费标准请参见 云数据库Memcache版详细价格信息。按量付费...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

如何配置流转规则

监控项名称 监控项名称,用于按监控项建立事件/故障流转规则。告警等级 提醒、警告、严重、致命。用于和事件/故障等级从P4-P1一一对应。告警明细 告警的指标,告警触发条件和当前指标数值。告警触发时间 业务监控触发告警的时间。重要 ...

常见问题-FAQ

重要 标准版最快在4分钟左右准确发现故障并切换 故障发现时间:GTM保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;全网生效时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL...

配云电脑规格

不同类型的配操作的限制如下:配类型 限制 配包年包月或者按量付费云电脑 仅支持相同规格类型的云电脑之间互相配,即办公型规格和图形型规格之间不互相配。仅支持从一个云电脑规格变更到另一个云电脑规格,不能单独变更云电脑...

自动故障剔除

自动故障剔除功能会自动监控 RPC 调用的情况,当某个节点出现故障时,故障节点进行权重降级,并在节点恢复健康时进行权重恢复。目前支持 Bolt 协议。配置方式 将自动故障剔除的参数配置到 SOFABoot 中的 application.properties 即可。...

耗资源用户处理流程

为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。

手动

主节点和只读节点单独配规格 PolarDB 集群支持对主节点和只读节点分别升降配,即只读节点的规格可以与主节点规格不一致。使用限制 同一集群中,确保至少有一个只读节点与主节点规格保持一致。只读节点规格建议不要与主节点规格相差过大...

集群监控告警说明

down 数量大于集群允许故障数量 EtcdLeaderCheck 检查 leader EtcdBackendFsync etcd io 监测,后端提交延时 EtcdWalFsync etcd io 监测,文件同步到磁盘延时 EtcdDbSize 检测数据库大小 EtcdGrpc Grpc 调用速率 CoreDNS 相关 告警名称 ...

步骤六:启动复制

保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?

步骤六:启动复制

保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?

多云场景全局容灾

通过GTM做全局容灾,实现不同地域用户就近接入,且任意一数据中心故障将访问流量切换到正常的数据中心,能够保障业务的连续性。预实现效果 中国内地的用户流量调度到线下IDC 中国香港用户的访问流量调度到阿里云中国香港 境外访问流量...

产品优势

设备级容灾 双网关主备设备接入模式,硬件故障及时更换。链路级容灾 每个网关终端双链路密封接入,自动探测最优链路,故障时主动实时切换。安全 混合云私网加密互连,Internet传输过程中加密认证。数据加密 使用IKE和IPsec协议对传输...

混合云应用双活容灾最佳实践

同时基于MSHA-Agent切面能力,具备应用数据库访问连接的切换能力,云上Redis或RDS故障将读写访问连接切换到IDC内的Redis或MySQL,反之亦然。切换过程中还具备禁写保护能力,避免产生读到旧数据以及脏写等数据质量问题。一站式管控及无...

直播推流常见问题

本文主要介绍直播推流过程中的常见问题。说明 如果在推流过程中出现推流异常等问题,优先使用自助问题排查工具进行自助检测。本工具快速诊断常见直播推流问题,并根据具体异常提供解决建议。具体操作,请参见 自助问题排查。视频直播...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

Demo体验

本工具快速诊断常见直播推流问题,并根据具体异常提供解决建议。具体操作,请参见 自助问题排查。播RTS流。方法一:使用移动端播RTS流。扫描并安装(或复制扫描后的地址至浏览器上进行下载并安装)RTS超低延时直播demo。打开 RTS超低延时...

播流/播放常见问题

本文主要介绍播流/播放过程中的常见问题。说明 如果在播放过程中出现播放异常等问题,优先使用自助问题排查工具进行自助检测。本工具快速诊断常见直播播放问题,并根据具体异常提供解决建议。具体操作,请参见 自助问题排查。视频直播...

访问云虚拟主机中的网站速度较慢的排查方法

网站无法访问时,参考以下故障诊断命令,定位故障点。使用 ping 命令检测IP或域名的连通性。如果出现ping丢包或ping不通的情况,请根据系统类型参见以下方案进行排查:Linux:Linux实例网站访问丢包延时高的排查方法 Windows:Windows...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复避免的重大问题,或通过验证故障发现...

变更实例配置

常见问题 什么原因会导致配失败?若实例中存在大Key,可能会导致配失败。建议在配前,排查并删除大Key,再执行配操作。关于排查大Key的方法请参见 离线全量Key分析。为避免数据丢失,降配时存在如下限制:新实例内存规格的80%需...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)实现业务7*24小时稳定运行,即使单机房故障也不影响业务的持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

托管节点池节点自动恢复

正常:当前节点不存在被发现的故障故障:当前节点发现故障。恢复失败:当前节点无法恢复。当节点的运行状态发生变化并持续一段时间后,ACK将判定该状态符合故障状态,存在节点故障。当发现节点故障时,ACK会根据故障原因触发对应恢复...

高可用和容灾设计

通过集群读地址访问备节点,在发生故障切换时,RDS的高可用系统会自动执行以下三个步骤:将一个备节点提升为主节点,该备节点从集群读地址中移除,同时清除该备节点上的读连接,此时集群读地址会发生闪断。故障主节点从集群读写...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

自治服务概述

默认大盘 默认的监控大盘提供了集群监控、租户监控两个维度,查看一些常见的性能监控指标。您也可以根据需要添加或者编辑大盘,进行更多场景的监控。添加大盘 访问监控大盘界面。单击 添加大盘。在添加大盘页面中,填写 大盘名称,不...

Kubernetes 部署

HELM Release 实例:Helm Release 部署 除了原生的发布能力支持以外,Flow 为了让整个发布过程的更加控,Flow 实现了”Kubernetes 分批发布”能力:Kubernetes 分批发布 用户可以根据自己的实际情况选择适合自己的发布方式。常见问题 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS 云数据库 Redis 版 轻量应用服务器 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用