系统故障排查

概述 本文主要介绍使用阿里云服务器ECS时的系统故障排查,包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查与定位。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,...

挂载文件系统失败故障排查

什么Windows Server 2016 IIS无法加载SMB volume文件?如何检查并解决Windows NFS soft挂载问题?如何解决Windows挂载NFS协议文件系统的报错?使用容器挂载NAS时,提示access denied by server while mounting<挂载地址>通过云助手批量...

演练场景说明

网络故障是系统运行过程中时常遇到的问题,所以需要提升系统在网络异常情况下的容错能力。Java 场景名称 特性 虚拟机场景 故障演练支持的虚拟机场景。代码逻辑场景 故障演练支持的代码逻辑场景。JVM注入动态脚本 向指定的Java方法注入一段...

GxP欧盟附录11标准合规包

13.1 应报告和评估所有事件,而不仅仅是系统故障和数据错误。应确定重大事件的根本原因,并应成为纠正和预防行动的基础。使用云安全中心企业版 使用云安全中心企业版或者更高级别的版本,视为“合规”。1.1 风险管理应贯穿计算机化系统的...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

流水单据型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务下单链路案例,介绍典型的流水单据型业务场景,如何基于多活容灾...相关文档 什么是故障演练 为什么需要多活容灾?

读多写少型业务场景多活实践

多活容灾MSHA(Multi-Site High Availability)是在阿⾥巴巴电商业务环境演进出的多活容灾架构解决⽅案。本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾...相关文档 什么是故障演练 为什么需要多活容灾?

故障协同处理(基于钉钉)

本文主要介绍什么是故障协同处理。云钉运维故障协同效果 功能概述 移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到 运维事件中心 控制台...

简介

使用 系统运维管理 SDK之前,您需要:了解并开通阿里云 系统运维管理,详情请参见 什么是系统运维管理。创建AccessKey。系统运维管理 支持以下主流语言的SDK包。语言 参考文档 Python 简介 Java 简介 Go 简介 C#简介 相关链接 阿里云开发者...

在批量执行命令中使用加密参数

通过 什么是系统运维管理 的参数仓库,可以更为方便的对参数进行集中管理。利用参数仓库的 加密参数,可以更安全的管理命令中的敏感信息。本文介绍如何在OOS批量执行命令时使用加密参数。前提条件 已开通密钥管理服务(KMS),请参见 什么...

Windows操作系统云虚拟主机耗资源(客户程序故障)...

本文主要介绍Windows操作系统云虚拟主机耗资源(客户程序故障)问题的原因分析及处理意见。调用Access程序问题(最常见)原因:Access数据库大小超过30M,频繁调用时耗用系统资源。解决方法:将数据库大小压缩到30M以内,或者升级到SQL ...

查看实例的系统日志和屏幕截图

系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障或异常时的日志内容。更多详情,请参见《云栖社区》博客 操作系统有异常?诊断日志来帮忙。使用限制 使用该功能时您需要注意如下...

利用定时开关机节省成本

关于OOS更详细的介绍请查阅 什么是系统运维管理 OOS(CloudOps Orchestration Service)。场景简介 如果您的服务产品在每天都有特定的流量高峰期时间段,在此时间段内需要大量的实例维护服务。当过了每日的流量高峰期时间段后,此时保留...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

强弱依赖治理概述

什么是强弱依赖?异常发生时,不影响核心业务流程,不影响系统可用性的依赖称作弱依赖,反之为强依赖。以商品详情页为例。商品详情页后台系统架构如下。如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

PTS压测快速入门

更多信息,请参见 什么是故障演练。容灾阶段:在容灾防护阶段,您需要构建系统的容灾解决方案。阿里云提供了 多活容灾 平台助力您建设系统容灾稳定性。更多信息,请参见 为什么需要多活容灾?PTS压测流程 PTS是具备强大分布式压测能力的...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,分钟级的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

词汇表

负载均衡 负载均衡是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务器来扩展应用系统的吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。更多信息,请参见 什么是负载均衡。高速通道 高速通道(Express ...

设计原则

因此,数据容灾对于企业来说是非常必要的,数据灾备是企业保护核心数据的重要手段,能有效降低勒索病毒、系统故障、自然灾害和运维事故导致的数据丢失和损坏问题,同时满足行业安全和合规要求,可以保障企业的正常运行和稳定发展。...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

设计方案

在软件系统架构演进中不变的是系统的基本属性,包含存储、计算和网络,变的是存储、计算和网络的实现方式和规模,往大规模、高性能、高可靠、易扩展等方向迭代演进,所以对架构稳定性提出了更高的要求。系统可预见的稳定性风险包含软硬件...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

使用ASM构建分布式系统的容错能力

重要 请勿频繁地重试或重试过长时间,避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求重试策略。以下示例定义网格中的服务请求httpbin应用时,如果httpbin应用无响应或与httpbin应用建立连接失败,会重新请求httpbin...

使用ASM构建分布式系统的容错能力

重要 请勿频繁地重试或重试过长时间,避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求重试策略。以下示例定义网格中的服务请求httpbin应用时,如果httpbin应用无响应或与httpbin应用建立连接失败,会重新请求httpbin...

实例启动异常常见错误与对应解决方案

1671696280:Windows系统BCD配置异常或磁盘文件系统故障,导致系统启动失败 问题现象 通过VNC登录实例时,Windows系统启动失败,启动界面显示 Windows未能启动,原因可能是最近更改了硬件或软件 错误信息,且 状态 为 0xc0000001。...

数据库代理常见问题

数据库代理是什么架构,有故障切换机制吗?数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的...

客户案例

业务挑战 一致性,一致性是金融业务的生命线,为了应对硬件或者系统故障(IDC/OS/机器故障),传统的数据库在这方面为业务提供多种选择。最大可用模式在主库故障情况下可能造成数据丢失。最大保护模式会提高全年的不可用时间,并造成性能...

网站耗资源(客户程序故障)常见问题

什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码错误严重等原因,造成服务器负载急剧上升,影响您访问网站时的正常使用。...

如何通过 mPaaS 框架解决 App 线上问题

发布 H5 离线包更新如果某些故障是发生在离线包内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。这种方式也是推拉结合,及时触达用户。发布小程序更新如果故障发生在小程序中,只需要重新修改小程序,重新发布。和 H5 离...

故障演练

所以可以对故障模型再做一次升级,并得到一些推论:故障是来自于硬件(如IaaS层),软件(如PaaS或SaaS)的故障。并且有个规律,硬件故障的现象,会在软件故障现象上有所体现。故障隶属于单机或是分布式系统之一,分布式故障包含单机故障。...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生的故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

DDH生命周期

您可以自主迁移故障潜伏期的DDH到其他物理机,具体操作请参见 迁移有潜在故障风险的DDH。是 故障 稳定状态 DDH出现故障。您可以 提交工单 检查并处理问题。是 已过期 稳定状态 包年包月DDH到期时出现的状态。对DDH续费后,DDH的状态会变为 ...

实例启动/停止异常常见问题

正常关机:ECS正常关机中,但因为操作系统在做系统补丁修复,或者系统配置不高导致操作系统启动反应慢,所以关机时间比较长。异常关机:ECS关机有异常,比如关机时系统报错,并没有真正进入关机流程。解决方案 通过查看实例的屏幕截图,...

创建事件运维任务

事件名称 系统事件的名称,可多选,取值参见 云产品事件。地域 否 事件关联资源所在的阿里云地域,可多选。取值请参见 地域和可用区。事件等级 否 事件等级,可选值严重、警告、信息。事件详情匹配规则 否 Json格式,用来匹配系统事件的...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

常见问题

产品简介FAQ 什么是文件存储NAS?文件存储NAS支持哪些访问协议?如何选择NFS和SMB文件系统协议?每个账户可以创建多少个文件系统、文件系统有什么限制?更多产品简介常见问题 产品定价FAQ 开通NAS服务后,就开始计费吗?购买了存储包为什么...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 文件存储 CPFS 云安全中心 数据库自治服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用