如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

无法连接到一个云连接网内的本地客户端

本文介绍SAG-1000设备无法连接到一个云连接网内的本地客户端的原因和处理方法。问题现象 SAG-1000设备无法连接到一个云连接网内的其他本地客户端。可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标PC环境的网络故障。...

故障协同处理(基于钉钉)

故障应急场景群名称:当前故障名称一致。故障应急场景群成员:故障提交人、主要处理人和应急协同组内成员(没有分配服务组则忽略)。故障应急场景群创建群场景分析:被拉取人员全部没有授权维蜜,则此群无法创建。被拉取人员部分授权维蜜...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

产品服务等级协议

2.3 除外情形 因 下述原因导致的服务不可用的时长不计入服务不可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)任何...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

实例启动异常常见错误与对应解决方案

问题原因 该问题可能是因为Windows系统引导配置数据(Boot Configuration Data,BCD)配置异常或者磁盘文件系统故障,导致系统无法加载。解决方案 在存有快照的情况下,您可以使用快照来恢复系统盘。具体操作如下:警告 回滚云盘是不可逆...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

GxP欧盟附录11标准合规包

16.1 为了提供支持关键过程的计算机化系统,应作出规定,确保在系统出现故障(例如手动或替代系统)时继续为这些流程提供支持。采用替代安排所需的时间应视风险而定,并适合特定系统及其所支持的业务流程。应充分记录和测试这些安排。17.1 ...

后端数据库故障导致负载均衡SLB一个监听中所有站点...

问题描述 后端数据库故障导致负载均衡SLB的 健康检查 状态为“异常”,进而影响一个 监听 下所有站点的访问。比如,某个 HTTP监听 的后端服务器中运行如下两个网站。当动态网站的后端数据库服务不可用时,静态网站也随之无法访问,提示...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

专线连接类

排查物理专线故障原因,具体操作,请参见 故障排查。本地数据中心到阿里云的线路中断,如何解决?请在本地数据中心的网关设备上测试物理专线的客户端侧IP到阿里云侧IP是否可达,即此物理专线的直连IP是否可以ping通。如果不通,则需您向...

配置任务常见错误码及排查方法

原因:通讯链路故障,JDBC驱动程序数据包成功发送到源数据库服务器,但未收到来自源数据库的数据包。解决方法:排查数据库的连接数是否过多。参考 communications link failure 处理。联系技术支持解决。DTS.Msg.SQLExecuteError....

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

故障演练

对于单机或机型的故障,以系统为视角,故障可能是当前进程内的故障,比如:如FullGC,CPU飙高;进程外的故障,比如其他进程突然抢占了内存,导致当前系统异常等。对于大多数无损突袭演练的故障模拟,只需要关注故障对当前系统的影响,而...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

操作流程

步骤七:故障切换 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步完成后再启动切换。这样可以保证容灾端与生产端数据完全一致,无数据丢失。该切换模式适用...

操作流程

步骤七:故障切换 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步完成后再启动切换。这样可以保证容灾端与生产端数据完全一致,无数据丢失。该切换模式适用...

功能概览

保护组 Protected Group(PG)Consistent Protected Group(CPG)一个保护组可包含多个ECS实例,便于客户使用一个计划对多个ECS进行一个时间点的操作。客户可以选择普通类型(多VM之间无关联),或者一致性类型(consistent group)。一个...

功能概览

保护组 Protected Group(PG)Consistent Protected Group(CPG)一个保护组可包含多个ECS实例,便于客户使用一个计划对多个ECS进行一个时间点的操作。客户可以选择普通类型(多VM之间无关联),或者一致性类型(consistent group)。一个...

FAQs

重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

如何解决增量迁移延迟或同步延迟

本文介绍导致DTS增量迁移延迟或同步延迟过大的常见原因,以及相应的解决方法。您可以逐一排查这些原因,并根据解决方法恢复任务。问题描述 DTS在进行增量任务时,迁移任务或同步任务出现延迟超过1000毫秒的情况。可能原因 原因1:任务规格...

概述

再者云计算平台会提供冗余存储和备份能力,避免系统因为硬件故障或其他原因导致的停机或数据丢失。这种备份机制可以提高系统的可靠性。责任共担模型 阿里云平台提供高可用的基础设施,并提供应用稳定性相关工具体系。用户可以基于阿里云...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

挂载文件系统失败故障排查

问题原因 对于某些内核版本,如果执行挂载操作的ECS实例名称与其他ECS实例名称相同,且该重名ECS实例已使用NFSv4.0挂载了一个NFS挂载点,此时会产生冲突。解决方案 在报错的ECS实例上执行以下命令。echo 'install nfs/sbin/modprobe-...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

地域和可用区常见问题

本文介绍RDS地域和可用区的概念...在一地域内可用区与可用区之间内网是互通的,可用区之间能做到故障隔离。如果您的应用需要较高的容灾能力,建议您将实例部署在一地域的不同可用区内。说明 创建单可用区或多可用区实例请参见 创建实例。

地域和可用区常见问题

本文介绍RDS地域和可用区的概念...在一地域内可用区与可用区之间内网是互通的,可用区之间能做到故障隔离。如果您的应用需要较高的容灾能力,建议您将实例部署在一地域的不同可用区内。说明 创建单可用区或多可用区实例请参见 创建实例。

地域和可用区常见问题

本文介绍RDS地域和可用区的概念...在一地域内可用区与可用区之间内网是互通的,可用区之间能做到故障隔离。如果您的应用需要较高的容灾能力,建议您将实例部署在一地域的不同可用区内。说明 创建单可用区或多可用区实例请参见 创建实例。

地域和可用区常见问题

本文介绍RDS地域和可用区的概念...在一地域内可用区与可用区之间内网是互通的,可用区之间能做到故障隔离。如果您的应用需要较高的容灾能力,建议您将实例部署在一地域的不同可用区内。说明 创建单可用区或多可用区实例请参见 创建实例。

地域和可用区常见问题

本文介绍RDS地域和可用区的概念...在一地域内可用区与可用区之间内网是互通的,可用区之间能做到故障隔离。如果您的应用需要较高的容灾能力,建议您将实例部署在一地域的不同可用区内。说明 创建单可用区或多可用区实例请参见 创建实例。

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流后可能有5分钟...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流后可能有5分钟...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

应用场景

场景四:异地容灾 由于地区断电、断网等客观原因,产品可用性并不能达到 100%。当出现这些故障时,如果用户业务部署在单个地区,那么就会因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务...
共有101条 < 1 2 3 4 ... 101 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 音视频通信 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用