混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

集群高可用架构推荐配置

节点池高可用配置 您可以基于节点的弹性伸缩、部署集、多AZ,结合K8s调度的拓扑分布约束,确保服务在不同的故障域(failure-domain)资源充足且有所隔离,从而当某一故障域出现问题时,服务仍然可以保持运行,减少单点故障的风险,提高系统...

连接保持

PolarDB 新增支持连接保持功能,避免由于一些运维操作(如升级配置、主备切换或升级小版本等)或非运维操作故障(如节点所在服务器故障)导致的连接闪断或新建连接短暂失败的问题,进一步提高 PolarDB 的高可用性。前提条件 PolarDB 数据库...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

作业调试

重要 如果您没有配置该参数,则按Apache Flink默认的重启策略,即当有Task失败时,如果没有开启Checkpoint,JobManager进程不会重启。如果开启了Checkpoint,则JobManager进程会重启。其他配置 在此设置更多Flink配置。例如 taskmanager....

ZooKeeper的使用场景和MSE ZooKeeper的优势

节点故障自愈:依托于K8s的Liveness能力,在节点出现故障时,会自动恢复故障节点,及时地保障服务的可持续性。数据安全:MSE ZooKeeper专业版提供了快照的备份能力,在集群出现非预期的情况时,能够快速重建恢复集群中的数据,保障数据的...

Windows 实例系统重启后显示系统恢复选项

最佳实践 为了避免计算机重启后进入系统恢复界面,确保系统能够从故障中恢复,在日常使用中,您可以参考如下最佳实践:将重要数据放在数据盘。定期对系统盘、数据盘进行快照,以便问题情况下恢复数据。在修改系统注册表前备份注册表文件,...

健康检查最佳实践

例如,单个故障实例最大可容忍30秒内不重启,则检查周期设置为10秒。因此,Readiness检查周期可设置为1秒,Liveness检查周期根据实际情况设置,如果没有特殊需求,可保持默认的30秒。参数详解(进阶版)延迟时间 对于Livness的配置,需要...

集群高可用

此外,为了保证处于活跃状态NameNode宕机之后,能自动切换到备用的NameNode,在两台Master节点上部署了FailoverController,整个故障切换过程无需人工介入。YARN ResourceManager 和NameNode类似,阿里云Cloudera CDP在两台Master节点上...

管理探针

每次您的主机重启时,AHAS探针进程也会自动重启。您可以通过控制台卸载AHAS探针,或者执行卸载AHAS探针脚本。通过控制台卸载AHAS探针:登录 AHAS控制台,然后在页面左上角选择 地域。在左侧导航栏选择 故障演练>概览。在左侧导航栏选择 ...

热修复简介

热修复(Hotpatch)用于在不发布新版本的情况下热修复线上故障(Bug)。使用场景 每一次热修复,都是一次 紧急发布。因此,mPaaS 限定了热修复的使用范围是:在来不及发布版本的情况下,需要立刻解决线上客户端问题。根据最佳实践,热修复...

GxP欧盟附录11标准合规包

16.1 为了提供支持关键过程的计算机化系统,应作出规定,确保在系统出现故障(例如手动或替代系统)时继续为这些流程提供支持。采用替代安排所需的时间应视风险而定,并适合特定系统及其所支持的业务流程。应充分记录和测试这些安排。17.1 ...

节点异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 节点故障诊断 检查节点的详情 检查节点的状态 检查节点的事件 检查节点的诊断日志 检查节点的关键组件 检查节点的监控 检查节点的安全组 常见问题及解决方案 节点关键组件异常处理 ...

MSE注册配置中心高可用最佳实践

当其中某个实例故障时,节点间秒级完成切换,故障节点自动离群。专业版注册配置中心基于Nacos 2.0新架构基础之上,在高可用方面降低了对底层基础设施的依赖,进一步提升了容灾能力。相关内容,请参见 版本选型。多可用区 MSE每个地域都包含...

节点异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 节点故障诊断 检查节点的详情 检查节点的状态 检查节点的事件 检查节点的诊断日志 检查节点的关键组件 检查节点的监控 检查节点的安全组 常见问题及解决方案 节点关键组件异常处理 ...

无影魔方AS05

V6.4.0-2023年8月 变更类型 变更点 变更说明 新增 新增外设故障诊断功能 无影云电脑 外设管理面板的 操作 列新增 诊断 功能,从而检查USB外设的连接链路是否正常。优化 提升网络检测能力 在原有网络检测能力的基础上,增强IP地址冲突、外网...

常见问题

PolarDB 每个节点都有一个故障切换(Failover)优先级,决定了故障切换时被选举为主节点的概率高低。当多个节点的优先级相同时,则有相同的概率被选举为主节点,详情请参见 自动/手动主备切换。备份与恢复 Q:PolarDB 采用什么备份方式?A...

查询和响应ECS系统事件

如果响应事件时,需要重启实例或重新部署实例,您必须通过控制台或OpenAPI重启实例,此操作才能生效。具体操作,请参见 重启实例 或 RebootInstance。说明 在系统内部通过reboot重启实例不会生效。通过阿里云CLI查询和响应系统事件 请确保...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

远程桌面无法连接到Windows实例的快速排查方法

步骤十:杀毒软件检查 步骤十一:尝试重启实例 步骤一:使用管理终端登录实例 无论何种原因导致无法远程连接实例,请先尝试用阿里云提供的远程连接功能进行连接,确认实例还有响应,没有完全宕机,然后再按原因分类进行故障排查。...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

关停或启动网站站点

相关文档 网站由于耗资源严重而影响性能时,阿里云会暂停您的网站,并向您发送网站耗资源(客户程序故障)停权通知,您可以通过关闭或重启站点方式来解决该问题。更多信息,请参见 网站耗资源(客户程序故障)的处理方法。

功能概览

高可靠:关于源端服务器负载爆发或重启、容灾网关断电重启、复制链路网络抖动等问题,ECS容灾服务都能够保证数据的持续复制和断点续传。云上的数据由阿里云提供数据可靠性保障。高安全:AES256数据加密以及HTTPS链路加密,端到端保障数据...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

GPU Device-Plugin相关操作

在ACK的独占GPU调度场景下,出于某些原因(例如GPU设备故障等),您需要隔离节点上的某个GPU设备,ACK提供了一个机制可供您手动对节点上的某个设备进行隔离,以避免新的Kubernetes设备调度到这个设备上。具体的操作方式如下:在目标节点/...

Windows系统异常重启以及蓝屏的处理方法

本文介绍Windows系统异常重启以及蓝屏的处理方法。问题描述 在Windows系统下,有时会遇到蓝屏(BSOD,Blue Screen of Death)情况。Windows操作系统在遇到异常的情况下,为了防止数据丢失,系统自动崩溃蓝屏,如果有配置内存转储文件...

部署和使用跨可用区实例

在索引配置了副本的情况下,当某一可用区出现故障时,剩余的可用区依然可以不间断地提供服务,显著增强了集群的可用性。同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统会自动在剩余的可用区中补充计算资源,满足业务...

本地盘实例运维场景和系统事件

更换坏盘可以保留除坏盘外其他本地盘的数据,对应的运维流程如下:您收到磁盘故障以及计划隔离坏盘的通知。您完成准备工作,包括修改/etc/fstab 配置文件、备份数据等。如果系统事件中包括隔离坏盘事件或对应操作,您响应通知,授权隔离坏...

Pod诊断

Pod 检查项名称 检查项说明 修复方案 Pod容器重启次数统计 统计Pod中容器重启次数。请检查Pod状态及日志。更多信息,请参见 Pod异常问题排查。Pod容器镜像下载阻塞情况 检查Pod同节点是否有其他Pod的容器镜像下载被阻塞。请检查Pod状态及...

IIS Web网站访问故障

本文介绍IIS(Internet Information Service)作为Web服务的网站,访问故障相关的问题及解决方案。本文介绍的IIS Web网站访问故障相关问题如下:访问部署在Windows实例上的基于IIS搭建的Web网站时,提示“500-内部服务器错误”,如何处理?...

SAP系统高可用环境维护指南

01]Clone Set:cln_SAPHanaTopology_HDB[rsc_SAPHanaTopology_HDB]Started:[saphana-01 saphana-02]2.2 重启pacemaker 备节点故障恢复后,先检查SBD,再重启pacemaker。systemctl start pacemaker HSR保持原主备关系,当前HAE状态如下:#crm...

HDFS Web UI介绍

本文为您介绍如何访问HDFS Web界面,包括获取NameNode服务地址、浏览NameNode UI首页,并提供有关启动NameNode UI的相关说明。访问HDFS Web UI 您可以...相关文档 如果在使用HDFS过程中遇到任何问题或故障,详情请参见 常见问题和故障诊断。

无影23.8寸一体机US01

V6.4.0-2023年8月 变更类型 变更点 变更说明 新增 新增外设故障诊断功能 无影云电脑 外设管理面板的 操作 列新增 诊断 功能,从而检查USB外设的连接链路是否正常。优化 提升网络检测能力 在原有网络检测能力的基础上,增强IP地址冲突、外网...

如何将本地.rdb文件恢复到云数据库 Redis 版实例

如果自建Redis开启了AOF,重启服务时,会优先使用AOF文件恢复数据,可能导致RDB文件的数据不能成功恢复到Redis中。此时,请关闭AOF。如果指定目录(dir)中的AOF文件备份到其他目录下,再重启Redis。重启后,如需打开AOF,可以执行 redis-...

MongoDB 7.0

设置数据库参数 部分参数在提交修改后会自动重启实例,需要重启的参数请参见 参数列表 页面中的 是否重启 列。重启实例 重启实例期间会启停进程,系统会断开当前所有连接,请确保业务具有重连机制。Mongod和Mongos进程启动时间通常都在30秒...

如何快速定位及解决数据库问题

本文介绍了数据库发生故障时的快速判断方法和解决办法。如何定位系统瓶颈是否在数据库上 通过Processlist来判断 执行以下语句,显示 PolarDB-X 上所有正在执行的SQL语句。SHOW PROCESSLIST WHERE INFO IS NOT NULL 一般情况下,语句堆积会...

作业智能诊断

Flink Advisor作业智能诊断服务能够帮您监控作业健康状况,分析和诊断错误日志、异常...作业所在机器存在硬件故障,将在一段时间后自愈,届时您的作业将会发生一次Failover。您可以手动重启(停止后再启动)作业,来规避自愈产生的Failover。

排查因连接数耗尽导致的数据库连接问题

故障表现 不同的MongoDB实例规格支持的最大连接数有所不同,详情请参见 实例规格概述。部署的应用程序突然无法连接数据库。已正确设置了白名单,通过Mongo Shell连接数据库时,提示如下错误:2019-07-10T10:30:43.597+0800 E QUERY[js]...

MongoDB 4.4

设置数据库参数 部分参数在提交修改后会自动重启实例,需要重启的参数请参见 参数列表 页面中的 是否重启 列。重启实例 重启实例期间会启停进程,系统会断开当前所有连接,请确保业务具有重连机制。Mongod和Mongos进程启动时间通常都在30秒...

MongoDB 5.0

设置数据库参数 部分参数在提交修改后会自动重启实例,需要重启的参数请参见 参数列表 页面中的 是否重启 列。重启实例 重启实例期间会启停进程,系统会断开当前所有连接,请确保业务具有重连机制。Mongod和Mongos进程启动时间通常都在30秒...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 OceanBase 版 负载均衡 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用