什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断工具。本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后...如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用性的故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

PTS压测快速入门

演练阶段:在演练排查阶段,您需要对系统进行故障演练,进而发现并验证系统问题,锻炼系统及相关人员的应急能力,阿里云提供了 故障演练 平台帮助您演练预案。更多信息,请参见 什么是故障演练。容灾阶段:在容灾防护阶段,您需要构建系统...

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

故障管理

在IT和互联网企业的实践中,以下情况都有可能造成故障:按计划进行的硬件、操作系统维护所引起的故障,包括更换硬盘、操作系统补丁。应用性故障,包括软件应用性能问题、应用缺陷(bug)、系统应用变更。人为操作故障:包括误操作以及不按...

主从实例读写分离部署(共享存储)

数据状态保存在盘古分布式存储系统中,无需从计算节点迁移,计算节点轻量无状态,系统可以快速从故障中恢复。该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问...

常见问题FAQ

4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源键,重启魔盒。2.重复插拔HDMI线 3.重启屏幕 屏幕操作指南由屏幕供应商给出。4.屏幕的信号源切换到HDMI输入。屏幕操作指南由屏幕供应商给出。如无法排除故障:...

查询文件系统详情

您可以在文件系统详情页了解您的文件系统概况,例如文件系统存储规格、文件系统资源使用量、文件系统版本、协议类型等信息。查询文件系统资源使用量 登录 NAS控制台。在左侧导航栏,选择 文件系统>文件系统列表。在页面上方,选择地域。...

查看历史系统事件

您可以查询过去一周内已处理的云服务器ECS系统事件,获取故障诊断和复盘分析数据。通过控制台查看 登录 ECS管理控制台。在左侧导航栏,单击 事件。在 事件 页面,您可以选择相应的事件类型查看不同地域下的系统事件,获取实例ID、事件类型...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

关键技术竞争力

基于混沌工程的红蓝攻防能力 TRaaS 基于混沌工程、建立演练机制,提供故障注入、演练编排体系能力,支持在不同环境、不同阶段,主动对业务系统进行故障注入,从而在主动观测单应用健壮性的同时,验证整个体系的故障发现能力、应急响应能力...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

查询文件系统详情

您可以通过控制台查看当前已创建的文件系统详情,例如查看各地域文件系统资源使用量、文件系统性能、ECS实例挂载状态等信息。查询文件系统资源使用量 您可以通过以下方式快速查询当前阿里云账号下文件系统资源使用量,例如容量型或性能型...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

Tair选型指南

选择容灾方案 图 3.Tair容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主从节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。...

管理标签

登录 NAS控制台。在左侧导航栏,选择 文件系统>文件系统列表。在顶部菜单栏,选择地域。在 文件系统列表 页面上方,单击 标签筛选,输入标签键信息后,选择标签值或输入标签值,即可在列表中查看到符合搜索信息的文件系统。

通过替换系统盘批量升级ECS的操作系统

背景 用户账号下有一批使用一个比较旧的操作系统的ECS实例,由于该版本系统不再维护而存在大量潜在的安全隐患,因此想要从旧的系统升级到比较新的还在维护的操作系统版本。本文介绍如何通过OOS(系统运维管理)批量升级ECS实例的操作系统。...

卸载或挂载系统

阿里云ECS实例支持卸载系统盘,本文介绍如何卸载、挂载ECS实例的系统盘。操作场景 当系统盘文件损坏导致无法启动ECS实例时,您可以卸载系统盘后作为数据盘挂载到其他ECS实例进行修复,修复完毕后再作为系统盘挂载到源ECS实例。前提条件 已...

查看和运行SMC客户端

具体操作,请参见 故障排除。说明 如果您需要停止客户端迁移或修改客户端配置,可参考以下操作步骤退出SMC客户端。Linux Linux版本客户端默认在后台运行,可执行以下命令退出后台进程:./go2aliyun_client-abort Windows Windows版本客户端...

演练场景说明

网络故障系统运行过程中时常遇到的问题,所以需要提升系统在网络异常情况下的容错能力。Java 场景名称 特性 虚拟机场景 故障演练支持的虚拟机场景。代码逻辑场景 故障演练支持的代码逻辑场景。JVM注入动态脚本 向指定的Java方法注入一段...

同城容灾架构概述

非机房级故障(某个机房的单产品故障,例如其中一个机房的ECS服务器损坏),可以通过对单产品的灾备设计来保障发生故障系统及时切换。应用设计相关参考标准 应用设计相关参考标准如下:无状态化。分布式集群设计、避免单点逻辑出现。幂等...

查看实例的系统日志和屏幕截图

系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障或异常时的日志内容。更多详情,请参见《云栖社区》博客 操作系统有异常?诊断日志来帮忙。使用限制 使用该功能时您需要注意如下...

Linux系统的ECS实例运行卡顿,在/var/log/messages...

问题原因 在Linux系统的ECS实例中,当某个进程因为某种原因无法继续执行,并且长时间停滞在某个状态下无法响应,就会发生挂起任务(hung task)故障,出现hung task故障可能原因如下:进程卡住(blocked):当某个进程在执行过程中出现死锁...

标准版-双副本

阿里云自研 故障探测切换系统(HA)阿里云Redis服务封装HA切换系统,实时探测主节点的异常情况,可以有效解决磁盘IO故障,CPU故障等问题导致的服务异常,及时进行主从切换,从而保证服务高可用。主从复制机制 阿里云针对Redis主从复制机制...

SSH服务未设置开机时自启动

如果Linux实例中SSH服务未设置开机时自启动,重启实例后,将无法使用SSH远程连接实例,您可以使用VNC登录实例进行修复,也可以通过实例健康诊断工具进行问题修复。背景信息 问题描述:重启Linux实例后,无法继续使用SSH远程连接实例,但是...

创建操作系统迁移任务

导入迁移源信息后,SMC控制台会自动生成迁移源记录,您需要在控制台为迁移源创建操作系统迁移任务,并完成操作系统的迁移。说明 关于操作系统迁移的更多信息,请参见 操作系统迁移(Linux)和 操作系统迁移(Windows)。前提条件 已导入...

标准架构

阿里云自研 故障探测切换系统(HA)阿里云 Tair 服务封装HA切换系统,实时探测主节点的异常情况,可以有效解决磁盘IO故障,CPU故障等问题导致的服务异常,及时进行主从切换,从而保证服务高可用。主从复制机制 阿里云针对 Tair 主从复制...

定时升级带宽失败时自动事件通知

解决方案 配置定时升级带宽执行 首先登录系统运维管理 控制台。在 常用运维任务 中点击 带宽临时升级,点击 创建。3.按需求配置好参数后点击 立即执行。4.创建执行成功后点击 详情 可以查看执行的详细信息。配置云监控 1.打开云监控控制...

通用性能

系统指标 指标详细 维度 能力 说明 系统部署 Agent自动注册 按规模可选择Agent集群式入网,高可用执行分钟级故障切换 系统性能 自动化峰值调用性能:100/分钟 自动化任务下发 并发调用性能:100台设备并行配置 系统稳定 系统动态扩容能力:...

批量下载文件到实例

首先登录系统运维管理 控制台,单击 常用运维任务,单击 批量操作实例,单击 创建。2.单击 批量下载文件,参数输入完成后单击 创建。3.执行完成后,单击 详情 查看执行结果。场景二:从OSS(对象存储)下载文件到实例 前提条件:所选...

重新初始化系统

如果您需要重置ECS实例或清除系统盘的数据,可以重新初始化系统盘使其恢复到创建时的状态。本文介绍如何重新初始化系统盘。操作须知 重新初始化系统盘后:系统盘会恢复到刚创建时的状态,并且会清空系统盘中已写入的数据。说明 更换系统盘...

ECS系统事件概述

系统事件由阿里云定义,用于记录和通知云资源的信息,例如运维任务执行情况、资源是否出现异常、资源状态变化等。说明 阿里云有众多产品支持系统事件,例如ECS、RDS、SLB等。本文仅说明云服务器ECS支持的系统事件,如需了解其他产品的系统...

自助救治损伤的ECS实例Linux系统

适用的症状和原因 在某些情况下,Linux操作系统会出现启动异常,此时,在阿里云ECS控制台显示的实例状态可能是运行中,但实例内的应用不可访问,实例内的网络不可达,既无法ping通,也无法通过workbench或者ssh建立连接。如果您在阿里云ECS...

定时触发函数计算

登录系统运维管理 控制台。单击定时运维,使用提供的定时此功能。在定时设置操作栏内,选择定时类型,如果选择仅在指定时间执行一次,在重复频率内选好时间即可,如果选择了周期性重复执行,则需要根据您实际的情况来填写重复频率、重复...

存储资源

磁盘性能下降,读写速度变慢,任务执行时间增加,系统的实时性降低,当磁盘IO负载过大无法承受时,可能导致磁盘故障系统崩溃或数据丢失。常见的容错策略如下:数据缓存:将数据暂时存储在内存中,减少对磁盘IO的频繁访问。可以利用内存...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 文件存储 CPFS 数据库自治服务 云安全中心 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用